インペリアル・カレッジ・ロンドンの研究者ら、精度とプライバシーを両立させる音声解析フレームワークを提案

インペリアル・カレッジ・ロンドンの研究者たちは、感情、性別、健康状態などのセンシティブな属性を除去しながら、音声認識や識別などのアプリケーションをサポートする音声分析手法を開発したと主張しています。このフレームワークは、音声データとプライバシー設定を補助情報として受け取り、その設定を使用して、録音された音声から抽出される可能性のある機密性の高い属性をフィルタリングします。

インペリアル・カレッジ・ロンドンの研究者ら、精度とプライバシーを両立させる音声解析フレームワークを提案

インペリアル・カレッジ・ロンドンの研究者たちは、感情、性別、健康状態などのセンシティブな属性を除去しながら、音声認識や識別などのアプリケーションをサポートする音声分析手法を開発したと主張しています。このフレームワークは、音声データとプライバシー設定を補助情報として受け取り、その設定を使用して、録音された音声から抽出される可能性のある機密性の高い属性をフィルタリングします。

音声信号は豊富なデータソースであり、年齢、性別、健康状態、性格、気分、感情状態などの言語情報とパラ言語情報を含んでいます。このため、生データがサーバに送信される場合には懸念が生じます。属性推論のような攻撃は、共有されることを意図していない属性を明らかにする可能性があります。

実際、研究者らは、攻撃者が音声認識モデルを使用してユーザからさらに属性を学習し、モデルの出力を利用して属性推論分類器を訓練することができると主張しています。このような攻撃者は、入力された音響条件に応じて、属性推論の精度が40%から99.4%と、ランダムに推測するよりも3~4倍高い精度を達成することができるとしています。

研究チームのアプローチは、2段階のアプローチで推論攻撃の成功を制限することを目的としている。第一段階では、ユーザーはプライバシーの好みを調整し、その好みのそれぞれが音声データ上で実行可能なタスク(例えば、音声認識)に関連付けられている。第二段階では、フレームワークは、特定のタスクの独立した要因を反映した次元を駆動するために、音声データ内の非分離表現を学習します。このフレームワークは、音声エンベッディング(音声の数値表現)、話者エンベッディング(利用者の数値表現)、音声エンベッディングと合成IDを連結して生成される音声再構成の3種類の出力を生成することができます。

実験では、音声認識、話者認識、感情認識など様々な目的で録音された5つの公開データセット(IEMOCAP、RAVDESS、SAVEE、LibriSpeech、VoxCeleb)を用いて、フレームワークの訓練、検証、テストを行いました。フレームワークを使うことで、話者の身元を隠しながら高い音声認識精度を得ることができますが、指定した好みによって認識精度が若干向上することがわかりました。そのため、今後の研究では制約条件を設けて対応できるとの自信を示しています。

著者のRanya Aloufiらはプレプリント論文の中で、「フレームごとに各ピッチクラスに位置するエネルギーの変化は、ユーザーのプライバシーを維持するために、ユーザーの感情に関連する韻律表現を変更するという我々が提案したフレームワークの成功を反映していることは明らかです」と書いています。「このように、音声分析の分野では、利用者のプライバシーを保護することが特に困難な課題となっています。しかし、私たちの実験と発見は、音声ベースのシステムの機能を高いレベルで維持しながら、プライバシーの公平なレベルを達成することが可能であることを示しています」。

研究者たちは、ユーザーが対話するデバイスやサービスに応じて制御を提供するためのフレームワークを拡張することに焦点を当てる予定です。また、分離された表現によって可能になるプライバシー保護、解釈可能、カスタマイズ可能なアプリケーションも探求する予定です。

今回の研究は、チャルマース工科大学とスウェーデンのRISE Research Institutesの研究者が、音声データの中の性別などの属性を難読化するために学習するプライバシー保護技術を提案した論文に続くものです。インペリアル・カレッジ・ロンドンのチームのように、彼らは録音で敏感な情報をフィルタリングするために訓練されたモデルを使用し、その後、敏感な情報がリアリズムやユーティリティを犠牲にすることなく隠されたままであることを保証する、フィルタリングされた詳細から独立した新しいプライベートな情報を生成します。

参考文献

  1. Ranya Aloufi, Hamed Haddadi, David Boyle. Privacy-preserving Voice Analysis via Disentangled Representations. arXiv: 2007.15064. Submitted on 29 Jul 2020.

Photo by Jason Rosewell on Unsplash

Read more

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

コロナは世界の子どもたちにとって大失敗だった[英エコノミスト]

過去20年間、主に富裕国で構成されるOECDのアナリストたちは、学校の質を比較するために、3年ごとに数十カ国の生徒たちに読解、数学、科学のテストを受けてもらってきた。パンデミックによる混乱が何年も続いた後、1年遅れで2022年に実施された最新の試験で、良いニュースがもたらされるとは誰も予想していなかった。12月5日に発表された結果は、やはり打撃となった。

By エコノミスト(英国)
中国は2024年に経済的苦境を脱するか?[英エコノミスト]

中国は2024年に経済的苦境を脱するか?[英エコノミスト]

2007年から2009年にかけての世界金融危機の後、エコノミストたちは世界経済が二度と同じようにはならないことをすぐに理解した。災難を乗り越えたとはいえ、危機以前の現状ではなく、「新常態」へと回復するだろう。数年後、この言葉は中国の指導者たちにも採用された。彼らはこの言葉を、猛烈な成長、安価な労働力、途方もない貿易黒字からの脱却を表現するために使った。これらの変化は中国経済にとって必要な進化であり、それを受け入れるべきであり、激しく抵抗すべきではないと彼らは主張した。 中国がコロナを封じ込めるための長いキャンペーンを展開し、今年その再開が失望を呼んだ後、このような感情が再び現れている。格付け会社のムーディーズが今週、中国の信用格付けを中期的に引き下げなければならないかもしれないと述べた理由のひとつである。何人かのエコノミストは、中国の手に負えない不動産市場の新常態を宣言している。最近の日米首脳会談を受けて、中国とアメリカの関係に新たな均衡が生まれることを期待する論者もいる。中国社会科学院の蔡昉は9月、中国の人口減少、消費者の高齢化、選り好みする雇用主の混在によってもたら

By エコノミスト(英国)
イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

イーロン・マスクの「X」は広告主のボイコットにめっぽう弱い[英エコノミスト]

広告業界を軽蔑するイーロン・マスクは、バイラルなスローガンを得意とする。11月29日に開催されたニューヨーク・タイムズのイベントで、世界一の富豪は、昨年彼が買収したソーシャル・ネットワーク、Xがツイッターとして知られていた頃の広告を引き上げる企業についてどう思うかと質問された。「誰かが私を脅迫しようとしているのなら、『勝手にしろ』」と彼は答えた。 彼のアプローチは、億万長者にとっては自然なことかもしれない。しかし、昨年、収益の90%ほどを広告から得ていた企業にとっては大胆なことだ。Xから広告を撤退させた企業には、アップルやディズニーが含まれる。マスクは以前、Xがブランドにとって安全な空間である証拠として、彼らの存在を挙げていた。

By エコノミスト(英国)