1
1
現在、Twitch でライブ配信されており、世界で最もスマートな 3 つの AI システムである GPT 5.2、Cloud Opus 4.5、Gemini 3 Pro が、古典的なポケモン ゲームに勝つために最善を尽くしている様子を見ることができます。少なくとも人間の基準からすれば、彼らはあまり優れたものではありません。
システムは遅く、自信過剰で、しばしば混乱します。しかし、より広い世界でこれらのシステムが現在何ができるかを理解したい場合は、ポケモンのチャンピオンになるための努力を追跡することで、各新モデルのリリースに伴う難解なベンチマークの数値よりもはるかに多くのことがわかります。
大規模言語モデル (LLM) をポケモンマスターにするという取り組みは、昨年 2 月に人類研究者が、当時世界最高のモデルの 1 つであるクロード ソネット 3.7 のリリースとともに、1996 年のゲームボーイ ゲーム『ポケットモンスター 赤』をプレイするクロードのライブストリームを開始したときに始まりました。同社が指摘したように、これはゲームを有意義にプレイできる最初のクラウドモデルだった(以前のモデルは「目的もなくさまよったり、ループにはまり込んだり」し、ゲームの最初のビートを抜け出すことができなかった)。最初の数週間で、このストリームは 2,000 人近くの視聴者を魅了し、クラウドは世間の注目を集めました。
ほとんどの子供たちはこのゲームを約 20 ~ 40 時間で学びます。 Sonnet 3.7 はこれを克服することができず、一度に数十時間もスタックすることを繰り返しました。 Anthropic の最新モデルである Cloud Opus 4.5 はパフォーマンスがはるかに優れていますが、頻繁に動作が停止します。あるケースでは、木を伐採しなければならないことに気づかなかった(あるいは見えなかった)ため、体育館に入らず4日間走り回っていました。 Google の Gemini モデルは昨年 5 月に同等のゲームを完成させることに成功し、Google CEO のサンダー・ピチャイは冗談交じりに、同社が「人工ポケモン知能」の開発に一歩近づいたと発表した。
しかし、それはジェミニがより優れたポケマスターであることを意味するものではありません。これは、2 つの AI システムが異なる「ハーネス」を使用しているためです。 Gemini Play Pokémon ストリームを運営する独立系開発者の Joel Zhang 氏が説明するように、ハーネスは AI システムを内蔵した「アイアンマン」スーツとして最もよく理解され、ツールを使用したり、単独では実行できないタスクを実行したりできるようになります。 Gemini のハーネスは、ゲームのビジュアルをテキストに変換してビジュアル ロジックの弱点を克服したり、パズルを解くために使用できるカスタム ツールを提供したりするなど、多くの助けを提供してくれました。一方、クラウドはよりミニマルなハーネスに結び付けられており、その取り組みがモデルについてより多くのことを物語っていることを意味します。
モデルとそのハーネスの区別は日常のユーザーには不透明ですが、ハーネスはすでに AI の使用方法を変えています。たとえば、ChatGPT に Web を検索するクエリを送信すると、Web 検索ツールが使用されます。それはそれを悪用する一環です。ポケモンに関しては、各モデルは、実行できるアクションを制御する異なるカスタム ハーネスを使用して動作します。
ポケモンは AI の能力をテストするのに適していますが、それは文化的になじみがあるためだけではありません。リアルタイムの反応が必要なマリオのようなゲームとは異なり、ポケモンはターン制であり、時間のプレッシャーがありません。プレイするには、AI モデルはゲームのスクリーンショットと、目標と実行できるアクションを説明するプロンプトを受け取ります。そして、彼らは自分で考えてアクションを実行します(例:「Aを押す」)。それは一歩です。人間の時間で 500 時間以上実行されている Opus 4.5 は、この記事の執筆時点で 170,000 ステップに達しています。各ステップで、記憶喪失の人がポストイットに頼るように、モデルは前の例によって残された情報に基づいて新たに開始されます。
チェスや囲碁では超人的なAIシステムが、6歳児向けの単純なゲームに苦戦する理由は驚くべきかもしれない。しかし、チェスや囲碁を征服したシステムは、Gemini、Cloud、ChatGPT などの汎用システムとは異なり、特定のゲーム用に構築されました。しかし、彼らがLLM試験でますます成功し、コーディングコンテストで人間を圧倒していることを考えると、ここでの彼らの成績の悪さは、一見すると驚くべきことです。
AI の課題は、「長期間にわたってどれだけうまくタスクを実行できるか」にあると Zhang 氏は言います。重要なのは、AI が認知作業を自動化する場合、長期的な計画と実行のためのこの能力も不可欠です。 「エージェントに自分の仕事をしてもらいたい場合、エージェントは5分前にやったことを忘れることはできません」と彼は言います。
古いタイプの AI に基づいたポケモン対戦アルゴリズムをオープンソース化した独立研究者のピーター・ウィッデン氏は、「AI はポケモンについてすべてを知っています。AI は大量の人間のデータに基づいて訓練されています。AI は何をすべきか知っていますが、実行を妨げます。」と述べています。 「エージェント」という用語は、マーケティング上の誇大広告のせいで過剰に使われるようになりましたが、この用語を適切に使用する AI システムは、知識と実行および長期的な計画の間のギャップを埋める必要があります。
差が縮まり始めている兆候が見られる。 Opus 4.5 は、以前のモデルよりも独自にメモを残す能力がはるかに優れており、見ているものを理解する能力の向上と相まって、ゲームで優位に立つことが可能になりました。そして、ポケモン ブルーを破った後、最新のジェミニ システム (ジェミニ 3 プロ) は、一度も負けることなく、より挑戦的なポケモン クリスタルを完成させました。これは、その前任者であるジェミニ 2.5 プロが達成できなかった偉業です。
一方、クラウドコードは事実上、クラウドが独自のコードを書いて実行し、独自のソフトウェアを作成できるようにするハーネスであるが、別のレトロゲーム「RollerCoaster Tycoon」に移植され、テーマパークの運営に成功していると伝えられている。これらすべては、AI システムが、コール オブ デューティ ゲームのプレイなど、リアルタイムの反応が必要なものに苦労しながらも、ソフトウェア開発、会計、法的分析、グラフィック デザインなどの大規模な認知タスクを実行できるかもしれないという奇妙な未来を示しています。
これらのポケモンの実行で際立っているもう 1 つの点は、人間のデータに基づいてトレーニングされたモデルがどのように人間のような癖を示しているかです。たとえば、Gemini 2.5 Pro の技術レポートで、Google は、モデルがパニックをシミュレートする状況 (ポケモンが気絶しそうになったときなど) では、推論能力が低下すると指摘しています。
そして、モデルは予測不可能な方法で行動し続けます。 Gemini 3 Pro が『ポケットモンスター ブルー』をクリアしたとき、彼は自分にこう書きました。「私はゲームを無事にクリアし、ポケモン リーグのチャンピオンになり、ミュウツーを捕まえました。」そして、それは予想外の予想外のことをすることに決めました、そして、張はそれが心を痛めたと感じました。 「物事を詩的に終わらせるために、すべてが始まった家に戻り、当分の間、事実上自分の役を『引退』するつもりです。ドラマを終わらせるために最後にもう一度ママと話したいと思います」と書かれている。