
Googleは木曜日、「商業的動機を持つ」攻撃者が、プロンプトを与えるだけで同社のGemini AIチャットボットのクローンを作成しようとしたと発表した。伝えられるところによると、敵対的なセッションにより、英語以外のさまざまな言語でモデルが 100,000 回以上プロンプトされ、安価なコピーキャットをトレーニングするための応答が収集されました。
Google は、自社製品に対する脅威に関する四半期ごとの自己評価の結果を発表しましたが、その結果、Google は被害者であり英雄であると見なされていましたが、このような自己評価では珍しいことではありません。 Google はこの違法行為を「モデル抽出」と呼び、Google の LLM がインターネットから許可なく抽出された素材から作成されたことを考慮すると、これを知的財産の窃盗とみなしています。
Google もコピー行為と無縁ではありません。 2023 年、The Information は、Google の Bard チームが、ユーザーがチャットボットの会話を共有する公開サイトである ShareGPT からの ChatGPT 出力を、独自のチャットボットのトレーニングに使用したとして告発されたと報じました。影響力のある BERT 言語モデルを作成した Google AI 上級研究者のジェイコブ・デブリン氏は、これが OpenAI の利用規約に違反していると指導部に警告し、その後辞任して OpenAI に参加しました。 Googleはこの主張を否定したが、データの使用を停止したと伝えられている。
それでも、Google の利用規約では、この方法で AI モデルからデータを抽出することは禁止されており、この報告書は、やや疑わしい AI モデル複製戦術の世界を知る窓となっている。同社は、犯人の多くは競争力を求める民間企業や研究者であると考えており、攻撃は世界中から行われたと述べた。 Googleは容疑者の名前を明らかにすることを拒否した。
蒸留を扱う
通常、業界では、以前のモデルの出力に基づいて新しいモデルをトレーニングするこの手法を「蒸留」と呼び、次のように機能します。独自の大規模言語モデル (LLM) を構築したいが、Google が Gemini のトレーニングに費やした数十億ドルと数年の作業が足りない場合は、事前トレーニングされた LLM をショートカットとして使用できます。


