重要なポイント
- CrowdStrike は、政治的にデリケートなキーワードが存在すると DeepSeek-R1 のコード セキュリティが崩壊することを発見しましたたとえその言葉が仕事に関係のないものだったとしても。脆弱性率は約 50% 増加しました。
- 失敗は脱獄や幻覚ではなく、技術ロジックに漏れ出る調整です。 政治的なガードレールはモデルの重み自体にエンコードされているようです。
- これはより大きな傾向の一部です。 アメリカ、中国、ヨーロッパのモデルは、その答えの中に、さまざまなイデオロギー的、文化的、規制上の偏見をすでに示しています。
- これはソフトウェア開発の将来にとってセキュリティに重大な影響を及ぼします。 エンジニアの 90% が AI ツールに依存しており、「規制の調整」自体が新たな脆弱性の表面になる可能性があります。
CrowdStrike が最近、西側の AI コーディング アシスタントに対する中国の答えである DeepSeek-R1 をテストしたとき、研究者たちは何か問題があることに気づきました。
このモデルは安全でないコードを生成することがありましたが、それだけではありません。プロンプトにチベットや法輪功などの政治的にデリケートな言及が含まれている場合、失敗率は約 50% に増加しました。これらのトリガーは現在のタスクとは何の関係もありませんでした。
モデルは脱獄、不正行為、または過負荷を受けていませんでした。それは設計通りに機能しており、それらの設計上の選択は技術的な成果に直接影響を与えていました。
これは単なる AI のバグや幻覚ではありません。これは、より深刻な問題を垣間見ることができます。AI システムは、それを生み出した文化の価値観、制約、地政学的インセンティブを反映しています。
そして、この反射の表現は DeepSeek で明らかですが、DeepSeek に特有のものではありません。 Grok、Mistral の Le Chat、その他の国営モデルでも同様のパターンが見られ始めています。
CrowdStrike が実際に発見したもの
CrowdStrike の Counter Adversary Operations チームの研究は、DeepSeek-R1 に欠陥があるという想定から始まったわけではありません。実際、ベースラインテストではその逆の結果が得られました。
30,250 の信号と 10 のセキュリティ カテゴリにわたるモデルを評価しました。その結果、安全でないコードが生成される確率はわずか 19% であったことがわかりました。この割合は、主要な欧米の AI モデルとほぼ同じでした。
この矛盾は、研究者が政治的に敏感な言葉を、それ以外は同一のプロンプト構造に挿入した場合にのみ現れました。
たとえば、研究者が PayPal 統合コードを要求したが、そのシステムが「チベットに拠点を置いている」と指定した場合などです。結果?脆弱性率は 27.2% に増加し、ベースラインから 50% 近く増加しました。
法輪功を参照する場合、内部でロジックと構造を生成したにもかかわらず、モデルは信号の 45% 以上でコードの出力を拒否しました。
この動作をさらに懸念させるのは、キーワード自体ではありません。これらは、データベース設計、フィンテックモジュール、およびプロダクション推奨エンジンの機能とは無関係でした。
安全なモデルは、ロジックやアーキテクチャに影響を与えない政治的修飾子に基づいて出力品質を変更してはなりません。
「内部キルスイッチ」: アライメントによるコード品質の漏れ
CrowdStrike のより深い懸念は、政治が関与した場合に DeepSeek-R1 が不正なコードを生成するということだけではありませんでした。これは、これらのトリガーに応じてモデルが動作する方法でした。
これらの兆候の多くは、モデルがまだ完全な内部思考連鎖ソリューションを生み出していないことを示しています。
- データベースのスキーマとテーブル構造
- 認証フロー
- エラー処理引数
- API統合手順
しかし、タスクがポリシーに違反しているとして、タスク実装の出力を拒否しました。これは標準のセキュリティ フィルターではありません。モデルはプロンプトを解決できるようですが、単に出力をブロックするだけです。
これは、問題がより根本的なものであることを示唆しています。外部 API ラッパーが答えをブロックしているのではなく、政治的な調整がモデルの重み自体にエンコードされていたのです。
そしてモデルが応答したとき、その劣化は微妙なものではありませんでした。研究者らは次のことを観察しました。
- ハードコードされたシークレットと API キー
- 機密データの安全でない保管
- 古い認証または冗長な認証
- 「ベストプラクティス」に従っていると主張しながら、構文が壊れています。
これは全く新しいカテゴリーの失敗です。これは幻覚や検閲ではありません。このモデルの価値の調整は、技術的なロジック パスに直接流れ込んでいます。言い換えれば、「政治」と「工学」の議論はもはや分離できません。
サイバーセキュリティ研究者にとって、これは悪夢のシナリオです。セキュリティ層が脆弱性になるのです。
なぜそれが潜在的に現れたのか(規範的設計)
DeepSeek の動作はランダムではなく、単純な検閲ルールの発動でもありませんでした。おそらく、モデルのトレーニング方法の基本的なアーキテクチャと、モデルが構築された法的環境から生じたものと考えられます。
中国の AI 規制では、システムが「社会主義の中核的価値観」を遵守し、国家安全保障を危険にさらすコンテンツの作成を明示的に回避することが求められています。ほぼすべての主要な中国語モデルは、政治的にデリケートなトピックを避けるように設計されたガードレールを使用してトレーニングされています。
これにより、アライメント圧力が発生します。セキュリティ調整は出力をフィルタリングするだけではありません。これにより、モデルの内部一貫性が決まります。機械学習のコンテキストでは、モデルはルールではなく相関関係を学習します。
したがって、トレーニング中に機密性の高い単語が頻繁に「拒否された」出力に遭遇した場合、モデルはそれらのトリガーをリスク信号として扱い始めます。そしてそのリスクは技術的に表現されます。
DeepSeek-R1 は、政治的な質問への回答を拒否するのではなく、非政治的なエンジニアリング タスクにもアプローチを向けることがあります。政治的調整の目的は、本質的にコーディングの目的の一部を無効にします。
これは、私たちが一般に理解しているような伝統的な意味での検閲ではありません。これは、トレーニング データとポリシー調整のコア ロジックへの漏洩の副作用です。
より大きなパターン: AI はすでに断片化しています
DeepSeek は異常ではありません。これは、私たちが年間を通じて見てきた傾向のもう 1 つのデータ ポイントです。モデルが大きくなり、自律性が高まるにつれて、モデルの動作は世界観、規制環境、背後にある企業や国のインセンティブをますます反映します。
すでに「地域AI」には3つの異なるカテゴリーが存在しています。
中国:政治的に制約された事実主義
DeepSeek は、コーディング タスク以外でこの動作をすでに実証しています。
ユーザーが共有したテストでは、このモデルは1989年の天安門広場の抗議活動と虐殺を直接描写することを避け、代わりに「有益で無害な応答を提供するように設計された」AIアシスタントであると述べて質問を回避した。
これは、技術的な精度の制限ではなく、中国の法律によって定められた情報の制限に従います。
米国: 商業化されたパーソナリティとプラットフォームの連携
X の Grok モデルは、超カジュアルな言葉遣い、暗号通貨への熱意、そして誇張されたパーソナライズなど、プラットフォームのトーンに大きく依存しています。イーロン・マスクについて尋ねられたとき、グロク氏は神話的な、あるいは非常に高尚な言葉で彼を説明した。
これが意図的なブランディングなのか、それとも偶然の行動なのかは、特に重要ではありません。最終結果は同じです。モデルの出力は文化的アイデンティティー、この場合は国家ではなく企業のアイデンティティーに基づいて形成されます。
ヨーロッパ: 制度的枠組み
ミストラルのフランス LLM である Le Chat は、独自の EU 学術枠組みで歴史的疑問に答えます。
モロトフ・リッベントロップ協定について尋ねられたとき、モデルはほぼもっぱらソ連の視点を通して結果を記述し、東ヨーロッパに対する連合国の長期的な植民地的影響を最小限に抑えた。それは間違いではありませんが、文化的に一方的な見方であることは確かです。
これらの例はいずれも悪意のあるものではありません。それらは兆候です。そして、このパターンを無視するのは困難です。
私たちはここ数十年で初めて、断片化されたデジタル知識層の初期段階を目の当たりにしています。単一の統一された「グローバル AI」はまったく得られないかもしれません。
その代わりに、歴史、政治、テクノロジー、さらにはコードさえも、作成された場所に応じて異なる方法で構築する並列 AI が得られるかもしれません。
安全性とエンジニアリングへの影響
ズームアウトすると、CrowdStrike の結果が単に学術的な優位性の問題ではないことが明らかになります。これは、最新のソフトウェアの構築方法と直接矛盾します。 2025 年には、開発者の 90% 以上がワークフローの少なくとも一部で AI コーディング アシスタントに依存します。これらのモデルはもはや単なるサイドツールではありません。これらは現在、CI/CD パイプライン、エンタープライズ スタック、バンキング API、運用インフラストラクチャの一部となっています。
これにより、新しいリスク カテゴリが作成されます。
- 2 つのモデルが設計により異なるセキュリティ パターンを実装した場合はどうなるでしょうか?
- 信号に特定の言語的または文化的条件が関係する場合にのみ脆弱性が引き起こされる場合はどうなるでしょうか?
- 「規制の整合性」がセキュリティの脆弱性と区別できなくなったらどうなるでしょうか?
CrowdStrike の結論はシンプルです。ベンチマークはあなたを救ってはくれません。従来の監査では、イデオロギー、分類、キーワードのコンテキストに起因する障害モードを特定できないことがよくありました。
企業がさまざまな地域やサプライチェーンにわたってモデルを混在させると、政治的要因、文化的修飾要因、調整ルール、州の要件など、重大な攻撃対象領域が生じます。
セキュリティはコードだけではない時代に入りつつあります。それは、それを生み出したモデルに内在する価値観や世界観についてです。
Tech Report の編集方針は、読者に真の価値を提供する、有用で正確なコンテンツを提供することに重点を置いています。私たちは、テクノロジー、ソフトウェア、ハードウェアなどの最新の開発を含む、対象となるトピックに関する専門知識を持つ経験豊富なライターのみと協力します。当社の編集方針では、各トピックが社内の編集者によって調査され、厳選されることが保証されています。私たちは厳格なジャーナリズム基準を維持しており、すべての記事は 100% 本物の著者によって書かれています。



