MITのコンピュータ科学・人工知能研究所(CSAIL)の研究者たちは、歴史上滅びた言語を解読できるシステムを開発したと主張している。これはわずか数千語の体系化の後に失われた言語でも、解読できるシステムへの一歩だという。

このCSAILの研究は、MITの教授で自然言語処理の専門家であるRegina Barzilay博士が中心となり、インテリジェンス先端研究プロジェクト活動の一部を支援したもので、歴史的言語学の洞察に基づいたいくつかの原則を活用している。例えば、ある言語で音が追加されたり削除されたりすることはほとんどないが、特定の音の置換が起こる可能性がある。親言語では「p」だった単語が子孫言語では「b」に変化することもあるが、発音のギャップが大きいため「k」に変化することはあまりない。

Barzilayと共著者のJiaming Luoは、このような言語的制約を取り入れることで、膨大な変換空間と入力中の信号の希少性を処理できる解読アルゴリズムを開発した。このアルゴリズムは、発音の違いが対応するベクトル間の距離に反映される多次元空間に言語音を埋め込むことを学習する。この設計により、システムは言語変化のパターンを捕捉し、それを計算制約として表現することができる。結果として得られたモデルは、古代言語の単語をセグメント化し、関連言語の対応語にマッピングすることができる。

新システムでは、アルゴリズムによって言語間の関係を推測し、2つの言語間の近さを評価することができる。さらに、既知の言語でテストすると、言語のファミリーを正確に識別することができる。

研究チームは、このアルゴリズムをイベリア語に適用し、バスク語との関係だけでなく、ロマンス語、ゲルマン語、トルコ語、ウラル語ととの関連性も考慮した。バスク語とラテン語は他の言語に比べてイベリア語に近いが、それでも関連性があると考えるにはあまりにも違いすぎることが、このシステムによって明らかになった。

今後の研究では、研究者らは、テキストを接続するだけでなく、既知の言語の中で関連する単語を解読するための取り組みを拡大したいと考えている。これには、システムが単語の読み方を知らなくても、単語の意味を特定することが含まれている。

MIT Newsによると、Barzilayは「これらの『実体認識』の手法は、今日の様々なテキスト処理アプリケーションで一般的に使用されており、非常に正確だが、重要な研究課題は、古代言語のトレーニングデータがなくても、このタスクが実行可能かどうかということです」と述べています。

滅びた言語の分野にAIを応用しているのは、Barzilayと共著者だけではない。AlphabetのDeepMind社は、300万語以上の単語を含む3万5000の遺物のパターンを認識することを学習するPythiaと呼ばれるシステムを開発した。それは、1500年から2600年前の石、陶器、金属などの表面に刻まれたギリシャ語の碑文から欠落している単語や文字を推測することに成功した。

今後の研究では、テキストを既知の言語の関連語に結びつけるという行為を超えて、「コグナートベースの解読」と呼ばれるアプローチで研究を拡大していきたいと考えているという。このパラダイムは、そのような既知の言語が存在することを前提としているが、イベリア語の例は、必ずしもそうではないことを示している。研究チームの新しいアプローチでは、たとえ読み方がわからなくても、単語の意味を特定することになるだろう。

MIT CSAILによると、「例えば、文書中の人物や場所への言及をすべて特定し、既知の歴史的証拠に照らし合わせてさらに調査することができる」とBarzilayは言う。「これらの『実体認識』の方法は、今日の様々なテキスト処理アプリケーションで一般的に使用されており、非常に正確ですが、研究上の重要な問題は、古代言語のトレーニングデータがなくてもこのタスクが実行可能かどうかということだ」。

Photo: "BJ945 Cuneiform"by listentoreason is licensed under CC BY-NC-SA 2.0