インペリアル・カレッジ・ロンドンの研究者ら、精度とプライバシーを両立させる音声解析フレームワークを提案

インペリアル・カレッジ・ロンドンの研究者たちは、感情、性別、健康状態などのセンシティブな属性を除去しながら、音声認識や識別などのアプリケーションをサポートする音声分析手法を開発したと主張しています。このフレームワークは、音声データとプライバシー設定を補助情報として受け取り、その設定を使用して、録音された音声から抽出される可能性のある機密性の高い属性をフィルタリングします。

吉田拓史

04 8月 2020 — 3 min read

音声信号は豊富なデータソースであり、年齢、性別、健康状態、性格、気分、感情状態などの言語情報とパラ言語情報を含んでいます。このため、生データがサーバに送信される場合には懸念が生じます。属性推論のような攻撃は、共有されることを意図していない属性を明らかにする可能性があります。

実際、研究者らは、攻撃者が音声認識モデルを使用してユーザからさらに属性を学習し、モデルの出力を利用して属性推論分類器を訓練することができると主張しています。このような攻撃者は、入力された音響条件に応じて、属性推論の精度が40%から99.4%と、ランダムに推測するよりも3～4倍高い精度を達成することができるとしています。

研究チームのアプローチは、2段階のアプローチで推論攻撃の成功を制限することを目的としている。第一段階では、ユーザーはプライバシーの好みを調整し、その好みのそれぞれが音声データ上で実行可能なタスク（例えば、音声認識）に関連付けられている。第二段階では、フレームワークは、特定のタスクの独立した要因を反映した次元を駆動するために、音声データ内の非分離表現を学習します。このフレームワークは、音声エンベッディング（音声の数値表現）、話者エンベッディング（利用者の数値表現）、音声エンベッディングと合成IDを連結して生成される音声再構成の3種類の出力を生成することができます。

実験では、音声認識、話者認識、感情認識など様々な目的で録音された5つの公開データセット（IEMOCAP、RAVDESS、SAVEE、LibriSpeech、VoxCeleb）を用いて、フレームワークの訓練、検証、テストを行いました。フレームワークを使うことで、話者の身元を隠しながら高い音声認識精度を得ることができますが、指定した好みによって認識精度が若干向上することがわかりました。そのため、今後の研究では制約条件を設けて対応できるとの自信を示しています。

著者のRanya Aloufiらはプレプリント論文の中で、「フレームごとに各ピッチクラスに位置するエネルギーの変化は、ユーザーのプライバシーを維持するために、ユーザーの感情に関連する韻律表現を変更するという我々が提案したフレームワークの成功を反映していることは明らかです」と書いています。「このように、音声分析の分野では、利用者のプライバシーを保護することが特に困難な課題となっています。しかし、私たちの実験と発見は、音声ベースのシステムの機能を高いレベルで維持しながら、プライバシーの公平なレベルを達成することが可能であることを示しています」。

研究者たちは、ユーザーが対話するデバイスやサービスに応じて制御を提供するためのフレームワークを拡張することに焦点を当てる予定です。また、分離された表現によって可能になるプライバシー保護、解釈可能、カスタマイズ可能なアプリケーションも探求する予定です。

今回の研究は、チャルマース工科大学とスウェーデンのRISE Research Institutesの研究者が、音声データの中の性別などの属性を難読化するために学習するプライバシー保護技術を提案した論文に続くものです。インペリアル・カレッジ・ロンドンのチームのように、彼らは録音で敏感な情報をフィルタリングするために訓練されたモデルを使用し、その後、敏感な情報がリアリズムやユーティリティを犠牲にすることなく隠されたままであることを保証する、フィルタリングされた詳細から独立した新しいプライベートな情報を生成します。