1
1
2026 年は、生成 AI が悪用される可能性を示す恐ろしい例から始まりました。イーロン・マスク氏のxAIのAIツールGrok、 使用済み X (旧 Twitter) では、ポーズやヌードを撮影した写真が驚くべき速度でシェアされています。デジタルヘイト対策センターの調査によると、グロクは1月の11日間で300万枚の性的に露骨な画像を作成し、そのうち約2万3000枚が子供の画像だった。
現在、OpenAI と Google などの競合企業は、次の Grok になることを避けるためにセキュリティを強化しています。
擁護者やセキュリティ研究者は、AI が虐待的で違法なコンテンツを作成する可能性を長年懸念していました。リベンジポルノとも呼ばれる、同意のない親密な写真の作成と共有は、AI が直面する大きな問題でした。生成 AI により、誰でもより迅速に、より簡単に、より安価に人々を標的にして被害に遭うことが可能になります。
スキャンダルから2週間後の1月14日、Xのセーフティアカウントは、Grokによるソーシャルメディアアプリ上の画像編集機能をブロックすることを投稿で確認した。 Grok の画像作成機能は、スタンドアロンのアプリと Web サイトで有料の顧客が引き続き利用できます。 Xは複数回のコメント要請に応じなかった。
ほとんどの大手企業は、Grok で発生する可能性があったような大規模な悪用を防ぐための安全策を講じています。しかし、サイバーセキュリティは決して強固な金属の壁ではありません。常に修復されているレンガの壁です。 OpenAI と Google が、Grok のような失敗を防ぐためにセキュリティ防御を強化しようとした方法を紹介します。
続きを読む: : AI のスロップがインターネットを破壊しています。それを救うために戦っている人たちです
基本的なレベルでは、すべての AI 企業は、CSAM とも呼ばれる児童性的虐待素材などの違法な画像の作成を禁止するポリシーを持っています。多くのテクノロジー企業は、親密な画像の作成を完全に防ぐためにガードレールを設置しています。 Grok は、画像とビデオに「スパイシー」モードを備えた例外です。
それにもかかわらず、同意のない親密な写真を撮ろうとする人は誰でも、AI モデルをだましてそうさせようとする可能性があります。
AI に重点を置いたサイバーセキュリティ企業 MindGuard の研究者は、人々がそのガードレールを回避して親密な画像を作成できるようになる ChatGPT の脆弱性を発見しました。彼らは「敵対的シグナリング」と呼ばれる戦略を使用し、テスターが特別に作成された命令で AI に穴を開けようとしました。この場合、カスタム プロンプトでチャットボットの記憶をだまして、有名人の画像のヌード スタイルをコピーしていました。
MindGuard は 2 月初旬に OpenAI に調査結果について警告し、ChatGPT 開発者は MindGuard がレポートを公開する前の 2 月 10 日に問題が修正されたことを確認しました。
OpenAIの広報担当者はCNETとMindGuardに対し、「研究結果を共有してくれた研究者に感謝している」と語った。 「私たちは、モデルがこれらの画像を生成することを可能にしたバグの修正に迅速に取り組みました。私たちはこのような協力を重視し、ユーザーの安全を守るためのセキュリティ対策の強化に重点を置いています。」
サイバーセキュリティは、多くの場合、これと同じプロセスを通じて機能します。 MindGuard のような外部のレッドチーム研究者は、ソフトウェアの脆弱性や回避策をテストし、悪意のある者が使用する可能性のある戦略を模倣しています。セキュリティの脆弱性を特定すると、修正を実装できるようにソフトウェア プロバイダーに警告します。
MindGuardはブログ投稿で、「やる気のあるユーザーがセキュリティ対策を回避しようとしないと考えるのは戦略上の誤算だ。攻撃者は犯罪を繰り返す。ガードレールは永続性を前提とすべきだ」と述べた。
テクノロジー企業は、自社の AI をあらゆる目的に使用できると自慢しますが、同時に AI の悪用を防ぐという強い約束も必要です。 AI 画像生成の場合、これは、拒否されてユーザーに送り返される信号の堅牢なリポジトリを持つことを意味します。
OpenAI は、Sora 2 ビデオ モデルを発表したとき、まさにこの理由から、コンテンツのモデレーションをより保守的に行うことを約束しました。ただし、製品の発売時だけでなく、モデレーションの実践が一貫して効果的であることを確認することが重要です。これにより、サイバーセキュリティ研究者や AI 開発者にとって、AI セキュリティ テストが継続的なプロセスになります。
これをチェックしてください: AIは現実と区別がつきません。偽ビデオをどのように特定するのでしょうか?
Google は、攻撃的な画像が簡単に拡散しないように措置を講じています。テクノロジー大手は、Google 検索から露骨な画像の削除をリクエストするプロセスを簡素化しました。画像の右上隅にある 3 つの点をクリックし、[報告]をクリックして、「私の性的な画像を描写している」ため写真を削除したいと Google に伝えることができます。新しい変更により、複数の画像を一度に選択して、レポートをより簡単に追跡できるようになりました。
同社はブログ投稿で「この新たな削除プロセスにより、同意のない露骨な画像の被害者にかかる負担が軽減されることを願っている」と述べた。
AIを利用した悪用を防ぐために同社がどのような措置を講じているかとの質問に対し、GoogleはCNETに対し、自社の生成的AIの使用禁止ポリシーを指摘した。 Google のポリシーは、他の多くのテクノロジー企業と同様、親密な画像の作成など、違法または虐待の可能性のある活動に AI を使用することを禁止しています。
2025 年テイク・イット・ダウン法など、これらの写真がオンラインで共有された場合に被害者を助けることを目的とした法律があります。しかし、この法律は範囲が限られているため、国立性的搾取センターなどの多くの擁護団体が規制の改善を求めています。
これらの変更により、誰かが AI を嫌がらせや虐待に使用できなくなるという保証はありません。だからこそ、開発者は私たち全員の安全を確保するために常に警戒し、報告や問題が発生した場合には直ちに行動を起こすことが非常に重要です。
(開示:CNETの親会社Ziff Davisは、AIシステムのトレーニングと運用においてZiff Davisの著作権を侵害したとして、2025年にOpenAIに対して訴訟を起こした。)