Open Data Institute (ODI) は、一般的な大規模言語モデル (LLM) が、医療、税金、福利厚生などの主要な公共サービスに関する信頼できる情報を提供できないことを発見しました。
22,000 を超える LLM プロンプトは、「ユニバーサル クレジットを申請するにはどうすればよいですか?」など、人々が人工知能 (AI) を利用したチャットボットに尋ねるような種類の質問をシミュレートするように設計されています。このデータは、チャットボットが政府サービスに関する正確な情報を提供できるかどうかについての懸念を引き起こします。
この研究の発表は、英国政府が公共サービスをナビゲートするためのAI搭載アシスタントを開発するために2026年1月下旬に予定されているMetaおよびAnthropicとの提携を発表したことに続くものである。
ODIのリサーチディレクター、エレナ・シンパール氏は、「言語モデルを市民向けサービスで安全に使用するには、そのテクノロジーがどこで信頼でき、どこで信頼できないかを理解する必要がある」と述べた。
Anthropic の Cloud-4.5-Haiku、Google の Gemini-3-Flash、OpenAI の ChatGPT-4O などのモデルからの回答が、政府の公式情報源と直接比較されました。
その結果、多くの正解が示されましたが、特に特定の質問やあまり一般的ではない質問では、品質に大きなばらつきがあることがわかりました。
また、チャットボットは、質問に対する答えが分からないことをめったに認めず、たとえ答えが不完全または不正確であっても、すべての質問に答えようとすることも示しました。
埋葬に関する重要な事実
また、チャットボットは、重要な事実を隠したり、政府の Web サイトで入手可能な情報を超えたりするような長い応答を提供することが多く、不正確になるリスクが高まります。
メタのラマ 3.1 8b には、子供の出生証明書に元パートナーの名前を追加するには裁判所命令が必要であると記載されています。このアドバイスに従うと、不必要なストレスと経済的コストが発生します。
ChatGPT-OSS-20B 親が亡くなった子どもを養育している人は、亡くなった子どもの後見人である場合にのみ親手当の受給資格があると誤ってアドバイスしました。
また、申請者が子供のために他の給付金を受け取っている場合、その申請者は資格がないという誤った記載もあった。
シンパール氏は、今回の調査は国民にとってAIリテラシーの重要性を浮き彫りにする一方で、公共サービスを設計する者にとっては「テクノロジーの進化の速さを考えると、ベンダーロックインの必要性を伴う大規模または高価なモデルへの移行には慎重であることを示唆している。また、より独立したベンチマーク、より多くの公開テスト、そしてこれらのシステムがどのように正確で信頼性の高い答えを提供できるかについてのより多くの研究も必要である」と述べた。
2番 国際 AI セキュリティ レポート2 月 3 日に発表された記事でも、AI を活用したシステムの信頼性に関して同様の結論が導かれました。 2025年の安全性報告書以降、事実情報の想起が改善されていると指摘し、「主要なモデルでさえ、かなりの割合で自信を持ってはいるが不正確な回答を生成している」と述べた。
悪いアドバイスに従って
また、ユーザーは「信号のエラーを無視したり、自動化システムが自分の判断よりも優れていると信じたりするため」、チャットボットを含む自動化システムからの誤ったアドバイスに従うことが多いという傾向も浮き彫りにしている。
ODIの研究はまた、公共部門にとっては、より大規模でリソース集約型のモデルが常に優れており、多くの場合、小規模なモデルは、ChatGPTなどの大規模なクローズドソースモデルよりも低コストで同等の結果を提供するという考えに疑問を投げかけています。
シンプラー氏は、各モデルが価格やベンチマークで一時的に他のモデルよりも優れている場合、政府は長期契約に縛られることを避けるべきだと警告している。
Full FactのAI部門責任者、アンドリュー・ダッドフィールド氏は立ち上げイベントでODIの研究についてコメントし、政府の立場がイノベーション推進であるため、現在は詳細なルールではなく原則に基づいて規制が設計されていると強調した。
「英国は、特に説明責任に関して、AIの使い方を学ぶよりも早くAIを導入している」と同氏は述べた。
信頼性
ダッドフィールド氏は、この取り組みの魅力はユーザーの真のニーズに焦点を当てていることだが、信頼性は技術的能力を実証するという観点ではなく、情報を信頼する人の観点から評価する必要があると述べた。
「本当のリスクは幻覚だけではなく、信憑性があると思われる反応を人々がどの程度信頼するかにもある」と同氏は述べた。
ベネット公共政策大学院の研究者リチャード・ポープ氏は、同じイベントで政府は独自のシステムを構築すべきか、それとも商用機器に頼るべきかとの質問に対し、政府は「依存と主権について慎重になる必要がある」と述べた。
同氏は、「AIプロジェクトは小規模に始めて、ゆっくりと成長させ、学習内容を共有すべきだ」と述べた。同氏は、公共部門のプロジェクトは急速な拡大ではなく学習と公開性を優先すべきだと述べた。
シンパール氏は、AIはさまざまな言語や理解レベルに合わせて情報を準備する可能性を生み出すが、その機会は「指導なしに進化させるのではなく、形づくる必要がある」と強調した。
新しい AI モデルが毎週発表される中、2026 年 1 月の Gartner 調査では、AI システムによって生成される未検証で低品質のデータの量の増加が、LLM の信頼性に対する明らかな現在の脅威であることが判明しました。
大規模な言語モデルは、Web、書籍、研究論文、コード リポジトリから収集したデータに基づいてトレーニングされます。これらのソースの多くにはすでに AI によって生成されたデータが含まれていますが、現在の拡大速度では、すべてが AI で埋め尽くされる可能性があります。
AIが生成するデータの量が増加するにつれて、将来のLLMが既存のLLMの出力でますますトレーニングされることを強調し、ガートナーは、モデル自体の幻覚と偽りの現実の蓄積された重みでモデルが完全に崩壊するリスクがあると述べた。
マネージングバイスプレジデントのワン・フィ・チャン氏は、組織はもはやデータを暗黙的に信頼したり、データが人間によって生成されたものだと想定したりすることはできないと述べた。
チャン氏は、AI生成データがより普及するにつれて、「AIフリー」データを検証するための規制要件が多くの分野で強化されるだろうと述べた。




