vdslab website

日本大学文理学部情報科学科
尾上研究室

重要語句と類似度ネットワークに着目した論文探索システムの開発

2022年度卒業生 守屋瑛希、工藤正和 による卒業演習作品です。

概要:近年,技術の進歩が顕著となる中で,日夜多くの研究が行われ,論文が作成・提出されている.このような研究をするためには先行研究や論文を探す必要がある.論文を探索する中で,従来の論文探索サイトではフリーワードによる検索が基本となっており,使用者側に大きな負担がある.そこで,我々は他の手段で論文の探索が可能なシステムを開発すればこの負担を取り除けるのではないかと考えた.そこで,本研究では重要語句と類似度ネットワークに着目した論文探索システムを開発した.論文の重要語句はキーワードとして設定することで自ら検索を行う負担を減少させるためである.また,類似度ネットワークは論文と類似している他の論文でネットワークを形成することで同時に類似論文を複数確認できるため,効率的な探索を可能としている.本システムの評価実験では,キーワードを利用することで検索による探索と比較して平均探索時間が59.6秒の短縮ができた.また,ネットワークを利用することでリストに表示する場合と比較して平均探索時間が58.8秒の短縮ができた.これらの結果から,本システムの有用性が確認できた.さらに,アンケートからシステムを直感的に操作でき,論文探索に使用したいなどの評価が得られたため,システムの目的を達成できた.

https://vdslab-paper-vis.netlify.app/

類似事業探索のための行政事業の俯瞰的可視化

2020年度卒業生 上野 瑞貴、野村 理紗 による卒業演習作品です。

概要:日本では1年間に約5000件の事業が中央省庁によって行われており、事業の目的やカテゴリは多岐にわたる。事業数は膨大で事業間の関係性は複雑になっており、行政事業全体を俯瞰する事や、事業と事業の類似などの関係性をチェックしていく事は難しいという問題がある。政府はこれらの問題に対して、行政事業レビューという取り組みを行い、全事業に対し、毎年無駄や改善点がないか点検を行っている。また、行政事業レビューという取り組みの中で、点検の透明性という観点から、行政事業レビューシートと呼ばれる統一した様式で事業の内容や執行実態、点検内容を誰もが閲覧可能な形で公開している。しかし、前述の通り約5000件という膨大な数ある事業全体、複雑な事業間の関係性を、行政事業レビューシートから俯瞰、把握する事はまだまだ難しいのが現状である。そこで本研究では、行政事業レビューシートの各項目を記載したデータを用いて、誰もが行政事業全体を俯瞰する事ができ、さらに、全体の俯瞰結果から事業を探索し、類似といった事業間の関係性を発見できるような可視化を行った。行政事業全体の俯瞰という目的に対しては、2019年度公開の行政事業レビューシートにおいて、実際に執行されている事業の事業概要から重要なキーワードを抽出し、事業の執行額を利用して、関連のあるキーワード同士を二次元空間上の近い位置に配置したキーワードバブルチャートを作成した。全体の俯瞰からさらに事業を探索し、類似といった事業間の関係性を見ていくという目的に対しては、キーワードバブルチャートでクリックしたキーワードが事業概要に含まれる事業を集め、事業概要の文書ベクトルを用いて階層的クラスタリングを行い、その結果をデンドログラムで表示した行政事業デンドログラムを作成した。また、それらの可視化結果を使用して、実際に行政事業全体や事業間の関係性について調査を行った。その結果、我々は事業概要が非常に類似した事業を発見し、それらの事業について考察を行った。

https://ueno10.github.io/test/

類似事業探索のための行政事業の俯瞰的可視化

LDAを用いたQiita記事のトピック可視化

2020年度卒業生 荒木 創太郎 による卒業演習作品です。

概要:プログラミングに用いられる言語は非常に多くある。それに伴い技術を紹介するサイト等が多くある。初学者や技術者の間でプログラミング技術共有サイトの一つであるQiitaが使用されている。初学者がプログラミング言語を学習するにあたり、現在使われている言語がどのような技術や分野に使用されているか知ることは、学びたい言語を決めるうえで有効である。また、Qiitaを内のトピックを知ることで、技術者は知見を広げることができる。しかし、サイト閲覧者が従来の検索やタグを用いて記事を読む方法では、今どの言語がどのような分野や技術に使用されているかを知るには時間がかかる。

そのため本研究では、Qiitaに投稿された記事のデータを用いた可視化を行った。可視化には、Qiitaのに投稿された記事の本文を取得し、トピックモデルであるLDAを利用してトピックモデルの作成を行いブログ内のトピックの発見を行った。その後、トピックに使用される単語を用いてワードクラウドを作成し、タグを用いてツリーマップの作成を行うことで可視化を行った。可視化することで、Qiita内の複数あるトピックを全体を知ることができ、そのトピックに使用されている単語やタグを知ることができることを目指す。

可視化結果より、Qiitaに投稿された記事の複数トピックを発見し、頻繁に使用される単語を発見した。また、各トピックに使用されるタグを用いたツリーマップにより、用いいられるプログラミング言語や技術を発見し、Qiita内の記事全体のトピックに関して考察を行った。

https://arasou-0206.github.io/LDA_visualization/

LDAを用いたQiita記事のトピック可視化