vdslab website

日本大学文理学部情報科学科
尾上研究室

LDAを用いたQiita記事のトピック可視化

2020年度卒業生 荒木 創太郎 による卒業演習作品です。

概要:プログラミングに用いられる言語は非常に多くある。それに伴い技術を紹介するサイト等が多くある。初学者や技術者の間でプログラミング技術共有サイトの一つであるQiitaが使用されている。初学者がプログラミング言語を学習するにあたり、現在使われている言語がどのような技術や分野に使用されているか知ることは、学びたい言語を決めるうえで有効である。また、Qiitaを内のトピックを知ることで、技術者は知見を広げることができる。しかし、サイト閲覧者が従来の検索やタグを用いて記事を読む方法では、今どの言語がどのような分野や技術に使用されているかを知るには時間がかかる。

そのため本研究では、Qiitaに投稿された記事のデータを用いた可視化を行った。可視化には、Qiitaのに投稿された記事の本文を取得し、トピックモデルであるLDAを利用してトピックモデルの作成を行いブログ内のトピックの発見を行った。その後、トピックに使用される単語を用いてワードクラウドを作成し、タグを用いてツリーマップの作成を行うことで可視化を行った。可視化することで、Qiita内の複数あるトピックを全体を知ることができ、そのトピックに使用されている単語やタグを知ることができることを目指す。

可視化結果より、Qiitaに投稿された記事の複数トピックを発見し、頻繁に使用される単語を発見した。また、各トピックに使用されるタグを用いたツリーマップにより、用いいられるプログラミング言語や技術を発見し、Qiita内の記事全体のトピックに関して考察を行った。

https://arasou-0206.github.io/LDA_visualization/

LDAを用いたQiita記事のトピック可視化