GPT-4の一部データが秘匿され、他社の追随が懸念される

話題沸騰のGPT-4の「論文」がモデルに関するデータを公開せず、批判が湧き上がっている。オープン性はAIの安全性と技術革新の点で社会的意義があったと考えられるが、他社が追随すればそれらは失われるだろう。

OpenAIが14日、大規模言語モデル（LLM）のGPT-4を公開して以来、付属の「テクニカルレポート」に対してネット上で批判が相次いでいる。

OpenAIのGPT-4研究論文は、90ページを超える長さでありながら、検証可能な詳細やベンチマークを提供していないとして批判を受けている。問題は、結果を再現する方法を提供せずに、OpenAIが科学研究を装っていることだ。

Facebook AI研究所ディレクターであるヤン・ルクンの研究室出身の AI研究者で、AIスタートアップLightning AIのCEOである、William Falconが米テクノロジー誌Venture Beatのインタビューで語ったところによると、ChatGPTとDALL-Eには検証用のコードがあり、GPT-4とは異なり、オープンソース化された技術に基づいていた。しかし、GPT-4にはOpenAIが共有しない「秘密の成分」があり、それが混乱と批判を引き起こしている。

クローズドソースモデルは、研究者がモデルの潜在的に危険な結果を特定し、対処することを困難にする可能性がある。OpenAIが作った前例がGoogleやMeta、NVIDIAにも伝播する恐れがある。

Falconによると、Metaは最もオープンな会社で、Googleはプライベートなモデルを持っているが、常に再現可能な論文を書いているという。再現性、透明性といったアカデミアのプリンシプルを守らない前例が、アカデミアのバックグラウンドを持たない新興企業に模倣されると危険だ、とFalconは主張している。

Falcon はOpenAIがモデルの情報を隠す理由について、新しいものを発表してもすぐさまコピーされてしまうという熾烈な競争環境を指摘している。「Stable Diffusion（のような画像生成モデル）は、何年も前にOpenAIによって発表されていた。再現するのに数年かかったが、Stability AIによってオープンソースで行われた。その後ChatGPTが出てきて、まだ数ヶ月しか経っていないが、すでにかなり良いバージョンがオープンソースで出ている。だから（コピーされるまでの）時間が短くなっている」

このため、特定のモデルや技術ではなく、トレーニングデータの方が重要性を増しており、それを公にしない態度はAI研究を行う大手企業の間で共通のものだ、とFalconは言う。

もともとNPOだったOpenAIが営利企業となり、290億ドルとも言われるバリュエーションを付け、Microsoftの投資を受け、最終的にモデルの透明性が失われたことで、OpenAIがダブルスタンダードを使っているという非難もある。イーロン・マスクは15日「私が約1億ドルを寄付した非営利団体が、なぜか時価総額300億ドルの営利団体になったのか、いまだに混乱している。もしこれが合法なら、なぜみんなそうしないのだろう？」とツイートした。

データサイエンス関連の人材開発会社 DataedX CEOである‪Brandeis Marshall博士は、「GPT-4は、AIの透明性、説明責任、ガバナンスのプロトコルがないままリリースされました。これは、私たち人類にとって恐ろしいことです」とツイートした。「GPT-4が解決しようとした現実の問題は何か、そして人類はどのような恩恵を受けるのでしょうか」