科学検索エンジンの作成者は、研究論文の一文要約を自動的に生成するソフトウェアを発表した。この無料ツール「TLDR」は、ワシントン州シアトルの非営利団体であるアレン人工知能研究所(AI2)が作成した検索エンジン「Semantic Scholar」での検索結果を表示するために最近導入された。科学誌Natureのニュースサイトが報じた

今のところ、このソフトウェアはSemantic Scholarでカバーされている1,000万件のコンピュータ科学論文のための文章のみを生成しているが、他の分野の論文については、ソフトウェアが微調整されれば、来月くらいには要約が得られるようになるだろうと、AI2のSemantic Scholarを管理しているダン・ウェルドは述べている。

「予備的なテストでは、特に携帯電話でタイトルや抄録を見るよりも、このツールの方が、読者が検索結果を素早く分類できることが示唆されている。人々は本当に気に入っているようだ」とウェルドはNatureに対し話している。

このツールに関して記述したプレプリントは、4月1日にarXivで最初に公開され、先月開催された自然言語処理カンファレンスでのピアレビューの後、受理された。研究者たちは、誰でもツールを試すことができるデモサイトとともに、自分たちのコードを自由に利用できるようにした。

「私は、この種のツールが近い将来、学術検索の標準機能になると予測している。実際、必要性を考えると、実際に使用されるようになるまでにこれほどの時間がかかったことに驚いた」とNatureの依頼を受けてこのツールをテストしたシアトルのワシントン大学の情報科学者、ジェビン・ウェストは語った。「完璧ではないが、正しい方向への一歩であることは間違いない」。

ウェルドがTLDRソフトウェアを開発するきっかけとなったのは、彼の同僚がTwitter上でシェアして記事にフラグを立てるために、その文章を見たことがきっかけだった。他の言語生成ソフトウェアと同様に、このツールでは、膨大な量のテキストに対して訓練されたディープニューラルネットワークを使用している。

研究チームは、そのタイトルと一致する数万件の研究論文を含むことで、ネットワークが簡潔な文章を生成できるように学習した。その後、研究者たちは、要約が一致する数千のコンピュータ科学論文(論文の著者が書いたものもあれば、学部生のクラスが書いたものもある)の新しいデータセットでトレーニングを行い、内容を要約するためのソフトウェアを微調整した。チームは、このソフトウェアの性能を向上させるために、他の16の分野でのトレーニング例を集めているが、その中でも特に生物医学が第一候補となるだろう。

このTLDRは唯一の科学的要約ツールではない。2018年以降、ウェブサイト「Paper Digest」が論文の要約を提供しているが、このソフトウェアは新しい文章を生成するのではなく、テキストから重要な文章を抽出する方法を採用しているようだ。

これに対し、TLDRは、論文の要旨、導入部、結論から文章を生成できる。TLDRの要約は、論文の本文中のキーフレーズから構築される傾向があるため、論文の専門用語をすでに理解している専門家を対象としている。しかし、ウェルドによると、チームは非専門家向けの要約の作成に取り組んでいるという。

研究者たちはまた、この技術を出版社にライセンスし、その分野の主要な論文を要約したパーソナライズされた研究報告書を提供するサービスを拡大することも計画している。

参考文献

  1. Cachola, I., Kyle, L., Cohan, A. & Weld, D. S. Preprint at https://arxiv.org/abs/2004.15011 (2020).

Photo by Annie Spratt on Unsplash