NLP

自然言語処理は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。形態素解析、N-gram解析、構文解析、意味解析・意味理解、格文法などの他、近年ではディープラーニングの活用により急速な進歩を遂げている。

無声音声をデジタル合成音声に変換するAIシステム

NLP

無声音声をデジタル合成音声に変換するAIシステム

UCバークレー校の研究者らは、顔や喉に電極を当てて筋電図(EMG)を使って、無声発話を検出するAIシステムを開発することに成功した。このモデルは、音を出さずに発話された音声を筋肉感覚で測定することで、無声発話を実現する。特に、デジタルボイシングと呼ばれる、送信や再生のための合成音声を生成する作業に焦点を当てている。

By 吉田拓史
Google、特許出願の分類にBERTを応用することを提案

NLP

Google、特許出願の分類にBERTを応用することを提案

Googleは、20日に発表されたホワイトペーパーの中で、オープンソースのツールを使用して、米国およびその他の国の1億件以上の特許公報に対してBERTモデルを訓練する方法を概説しており、これを使用して特許の新規性を判断し、分類を支援するための分類を生成することができるとしている。

By 吉田拓史
Facebookのオープンソースモデル「M2M-100」は100種類の言語間の翻訳が可能

NLP

Facebookのオープンソースモデル「M2M-100」は100種類の言語間の翻訳が可能

Facebookは20日、英語データに頼らずに100言語の任意のペア間で翻訳できる初めてのアルゴリズムであるM2M-100をオープンソース化した。2,200の言語ペアで訓練されたこの機械学習モデルは、機械翻訳の性能を評価するために一般的に使用される指標において、英語中心のシステムを表向きは凌駕している。

By 吉田拓史
アレン研究所、AI言語モデルに蔓延する毒性を発見

AI

アレン研究所、AI言語モデルに蔓延する毒性を発見

アレン人工知能研究所の研究者は、AI言語モデルから人種差別的、性差別的、またはその他の有害な反応を引き出すためのデータセット「RealToxicityPrompts」を作成し、モデルがこれらの反応を好むかどうかを測定する方法として試みた。実験では、現在の機械学習技術では有毒な出力を十分に防ぐことができず、より良いトレーニングセットとモデルアーキテクチャの必要性が強調されていることがわかった。

By 吉田拓史
マイクロソフト、GPT-3の独占ライセンスを取得

NLP

マイクロソフト、GPT-3の独占ライセンスを取得

マイクロソフトは22日、GPT-3を、AIスタートアップのOpenAIから独占的にライセンス供与することを発表した。マイクロソフトのEVPであるケビン・スコットは、OpenAIの技術革新を活用して顧客にAIソリューションを開発・提供し、自然言語生成の力を活用した新しいソリューションを生み出すと述べている。

By 吉田拓史
マイクロソフト、「最先端」の生物医学NLPモデルを提案

NLP

マイクロソフト、「最先端」の生物医学NLPモデルを提案

マイクロソフトの研究者たちは、「生物医学自然言語処理(NLP)のためのドメイン固有の言語モデル事前学習」というAI技術を提案。データセットから「包括的な」生物医学NLPベンチマークをコンパイルすることで、名前付き実体認識、エビデンスに基づく医療情報抽出、文書分類などのタスクで最先端の結果を得たと主張した。

By 吉田拓史
DeepMind研究者「英語以外で自然言語処理の研究を行うべき」

NLP

DeepMind研究者「英語以外で自然言語処理の研究を行うべき」

DeepMindの研究者であるSebastian Ruderが「英語以外の言語で自然言語処理の研究を行なうべき理由」というブログ記事を投稿した。世界中で7000以上の言語が話されているが、NLPの研究ではほとんどが英語に焦点を当てている。Ruderは、この文脈の中で、なぜ英語以外の言語に取り組むべきなのかを概説した。

By 吉田拓史