インペリアル・カレッジ・ロンドンの研究者ら、精度とプライバシーを両立させる音声解析フレームワークを提案

インペリアル・カレッジ・ロンドンの研究者たちは、感情、性別、健康状態などのセンシティブな属性を除去しながら、音声認識や識別などのアプリケーションをサポートする音声分析手法を開発したと主張しています。このフレームワークは、音声データとプライバシー設定を補助情報として受け取り、その設定を使用して、録音された音声から抽出される可能性のある機密性の高い属性をフィルタリングします。

インペリアル・カレッジ・ロンドンの研究者ら、精度とプライバシーを両立させる音声解析フレームワークを提案

インペリアル・カレッジ・ロンドンの研究者たちは、感情、性別、健康状態などのセンシティブな属性を除去しながら、音声認識や識別などのアプリケーションをサポートする音声分析手法を開発したと主張しています。このフレームワークは、音声データとプライバシー設定を補助情報として受け取り、その設定を使用して、録音された音声から抽出される可能性のある機密性の高い属性をフィルタリングします。

音声信号は豊富なデータソースであり、年齢、性別、健康状態、性格、気分、感情状態などの言語情報とパラ言語情報を含んでいます。このため、生データがサーバに送信される場合には懸念が生じます。属性推論のような攻撃は、共有されることを意図していない属性を明らかにする可能性があります。

実際、研究者らは、攻撃者が音声認識モデルを使用してユーザからさらに属性を学習し、モデルの出力を利用して属性推論分類器を訓練することができると主張しています。このような攻撃者は、入力された音響条件に応じて、属性推論の精度が40%から99.4%と、ランダムに推測するよりも3~4倍高い精度を達成することができるとしています。

研究チームのアプローチは、2段階のアプローチで推論攻撃の成功を制限することを目的としている。第一段階では、ユーザーはプライバシーの好みを調整し、その好みのそれぞれが音声データ上で実行可能なタスク(例えば、音声認識)に関連付けられている。第二段階では、フレームワークは、特定のタスクの独立した要因を反映した次元を駆動するために、音声データ内の非分離表現を学習します。このフレームワークは、音声エンベッディング(音声の数値表現)、話者エンベッディング(利用者の数値表現)、音声エンベッディングと合成IDを連結して生成される音声再構成の3種類の出力を生成することができます。

実験では、音声認識、話者認識、感情認識など様々な目的で録音された5つの公開データセット(IEMOCAP、RAVDESS、SAVEE、LibriSpeech、VoxCeleb)を用いて、フレームワークの訓練、検証、テストを行いました。フレームワークを使うことで、話者の身元を隠しながら高い音声認識精度を得ることができますが、指定した好みによって認識精度が若干向上することがわかりました。そのため、今後の研究では制約条件を設けて対応できるとの自信を示しています。

著者のRanya Aloufiらはプレプリント論文の中で、「フレームごとに各ピッチクラスに位置するエネルギーの変化は、ユーザーのプライバシーを維持するために、ユーザーの感情に関連する韻律表現を変更するという我々が提案したフレームワークの成功を反映していることは明らかです」と書いています。「このように、音声分析の分野では、利用者のプライバシーを保護することが特に困難な課題となっています。しかし、私たちの実験と発見は、音声ベースのシステムの機能を高いレベルで維持しながら、プライバシーの公平なレベルを達成することが可能であることを示しています」。

研究者たちは、ユーザーが対話するデバイスやサービスに応じて制御を提供するためのフレームワークを拡張することに焦点を当てる予定です。また、分離された表現によって可能になるプライバシー保護、解釈可能、カスタマイズ可能なアプリケーションも探求する予定です。

今回の研究は、チャルマース工科大学とスウェーデンのRISE Research Institutesの研究者が、音声データの中の性別などの属性を難読化するために学習するプライバシー保護技術を提案した論文に続くものです。インペリアル・カレッジ・ロンドンのチームのように、彼らは録音で敏感な情報をフィルタリングするために訓練されたモデルを使用し、その後、敏感な情報がリアリズムやユーティリティを犠牲にすることなく隠されたままであることを保証する、フィルタリングされた詳細から独立した新しいプライベートな情報を生成します。

参考文献

  1. Ranya Aloufi, Hamed Haddadi, David Boyle. Privacy-preserving Voice Analysis via Disentangled Representations. arXiv: 2007.15064. Submitted on 29 Jul 2020.

Photo by Jason Rosewell on Unsplash

Read more

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAI、法人向け拡大を企図 日本支社開設を発表

OpenAIは東京オフィスで、日本での採用、法人セールス、カスタマーサポートなどを順次開始する予定。日本企業向けに最適化されたGPT-4カスタムモデルの提供を見込む。日本での拠点設立は、政官の積極的な姿勢や法体系が寄与した可能性がある。OpenAIは法人顧客の獲得に注力しており、世界各地で大手企業向けにイベントを開催するなど営業活動を強化。

By 吉田拓史
アドビ、日本語バリアブルフォント「百千鳥」発表  往年のタイポグラフィー技法をデジタルで再現

アドビ、日本語バリアブルフォント「百千鳥」発表 往年のタイポグラフィー技法をデジタルで再現

アドビは4月10日、日本語のバリアブルフォント「百千鳥」を発表した。レトロ調の手書き風フォントで、太さ(ウェイト)の軸に加えて、字幅(ワイズ)の軸を組み込んだ初の日本語バリアブルフォント。近年のレトロブームを汲み、デザイン現場の様々な要望に応えることが期待されている。

By 吉田拓史