
しかし、1 秒あたり 1,000 トークンという数字は、Cerebras の基準からすると実際には控えめな数字です。同社は、Llama 3.1 70B で 1 秒あたり 2,100 トークンを測定し、OpenAI 独自のオープンウェイト gpt-oss-120B モデルで 1 秒あたり 3,000 トークンを報告しました。これは、Codex-Spark の比較的遅い速度が、より大規模またはより複雑なモデルのオーバーヘッドを反映していることを示唆しています。
AI コーディング エージェントは飛躍的な年を迎え、OpenAI の Codex や Anthropic の Cloud Code などのツールは、プロトタイプ、インターフェイス、ボイラープレート コードを迅速に構築するための有用性が新たなレベルに達しました。 OpenAI、Google、Anthropic はすべて、より有能なコーディング エージェントの出荷を競い合っており、レイテンシが勝者を分けるものとなっています。コーディングを高速化するモデルにより、開発者は反復処理を高速化できます。
Anthropic との激しい競争に直面している OpenAI は、コーデック ラインの開発に急速に取り組んでおり、CEO の Sam Altman が Google からの競争圧力に関する社内の「コードレッド」メモを発表した後、12 月に GPT-5.2 をリリースし、数日前に GPT-5.3 コーデックを出荷しました。
Nvidia から離れて多角化する
Spark のより深いハードウェアのストーリーは、ベンチマーク スコアよりも重要な影響を与える可能性があります。このモデルは、Cerebras の Wafer Scale Engine 3 上で動作します。これは、Cerebras が少なくとも 2022 年までビジネスを構築してきたディナープレートサイズのチップです。OpenAI と Cerebras は 1 月に提携を発表しており、Codex-Spark はそこから生まれた最初の製品です。
OpenAI は昨年、Nvidia への依存度を計画的に削減してきました。同社はAMDと2025年10月までの大規模な複数年契約を結び、11月にはAmazonと380億ドルのクラウドコンピューティング契約を結び、最終的にTSMCによる製造に向けて独自のカスタムAIチップを設計している。
一方、NVIDIA と計画されていた 1,000 億ドルのインフラストラクチャ取引は、NVIDIA がその後 200 億ドルの投資を約束したものの、これまでのところ実現していない。ロイターは、OpenAI が推論タスク用の一部の Nvidia チップの速度に不満を抱いたと報じています。推論タスクはまさに OpenAI が Codex-Spark を設計したワークロードのタイプに当てはまります。
どのチップが内部に搭載されているかに関係なく、精度は犠牲になるかもしれませんが、速度は重要です。コード エディターの中で AI の提案を待つことに日々を費やしている開発者にとって、1 秒あたり 1,000 トークンは、ジグソーを慎重に実行するというよりは、むしろ切りのこを実行するように感じるかもしれません。あなたが何を切っているのかを見てください。



