無声音声をデジタル合成音声に変換するAIシステム

UCバークレー校の研究者らは、顔や喉に電極を当てて筋電図(EMG)を使って、無声発話を検出するAIシステムを開発することに成功した。このモデルは、音を出さずに発話された音声を筋肉感覚で測定することで、無声発話を実現する。特に、デジタルボイシングと呼ばれる、送信や再生のための合成音声を生成する作業に焦点を当てている。

無声音声をデジタル合成音声に変換するAIシステム

UCバークレー校の研究者らは、顔や喉に電極を当てて筋電図(EMG)を使って、無声発話を検出するAIシステムを開発することに成功した。先週オンラインで開催されたEmpirical Methods in Natural Language Processing (EMNLP)のイベントで、David GaddyとDan Kleinによるこのモデルに関する論文「Digital Voicing of Silent Speech」が最優秀論文賞を受賞した。

UCバークレー校の研究者は、無声発話の予測に「音声出力ターゲットを発声録音から無声録音に転送する」アプローチを採用した。その後、DeepMimdが開発した深層学習による音声波形モデルWaveNetを音声音声予測を生成するために使用している。

このモデルは、音を出さずに発話された音声を筋肉感覚で測定することで、無声発話を実現する。特に、デジタルボイシングと呼ばれる、送信や再生のための合成音声を生成する作業に焦点を当てている。

研究者らは、彼らの研究が、音声を出せない人々のための多くの応用を可能にし、AIアシスタントや音声コマンドに反応する他のデバイスのための音声検出をサポートする可能性があると考えている。「例えば、Bluetoothヘッドセットのように、周囲の人に迷惑をかけずに電話での会話ができるようなデバイスを作ることができる。このようなデバイスは、環境が大きすぎて聞き取りにくい場合や、沈黙を維持することが重要な場合にも有用である。また、外傷や病気で喉頭を摘出された人など、可聴音声を発することができなくなった人がこの技術を使用することも可能である。

このようなデジタルボイシングの無声音声への直接的な用途に加えて、無声音声テキストシステムを作成するためのコンポーネント技術としても有用であり、既存の高品質なオーディオベースの音声テキストシステムを活用して、無声音声をデバイスやデジタルアシスタントで利用できるようにすることができる。

発声されたEMGデータで訓練されたベースラインと比較して、このアプローチでは、書籍の文章を書き写す際の単語エラー率が64%から4%減少し、ベースラインと比較してエラーが95%減少した。この分野でのさらなる研究を促進するために、研究者たちは20時間近くに及ぶ顔面筋電図データを公開した。

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史