概要 — 2026年5月6日、サンフランシスコで起きた地殻変動

2026年5月6日、Anthropicは年次開発者会議「Code w/ Claude 2026」をサンフランシスコで開催した。Dario Amodei(共同創業者・CEO)とDaniela Amodei(共同創業者・プレジデント)が登壇し、テーマは "the distance between an idea and production software is narrowing"(アイデアから本番ソフトウェアまでの距離は縮まっている)。本会議は同年5月19-20日のロンドン、6月の東京と巡回開催される。

▲ Anthropic 公式キーノート動画:「Code with Claude Opening Keynote」(YouTube・2026年5月6日収録)

本会議で最も注目すべきは、新たなフロンティアモデルが発表されなかったことだ。Anthropicは過去数年、Opus/Sonnet/Haiku系列のモデル発表でAIフロンティアを牽引してきたが、2026年のCode w/ Claudeでは、Opus 4.7など既存モデルの新リリースはなかった。代わりに前面に出たのは、コンピュート供給の大型拡張・マネージドエージェントの本番運用機能・MS Office内蔵化・金融特化エージェントといった「実行環境」への投資である。

本記事では、Anthropic公式ブログとSimon Willisonによるライブブログを起点に、発表内容を整理し、AX推進担当者にとっての含意を解説する。

登壇者と全体構成

オープニングキーノートには以下が登壇した(役職はAnthropic):

  • Ami Vora(Chief Product Officer)
  • Dianne Penn(Head of Product, Research)
  • Angela Jiang(Head of Product, Claude Platform)
  • Katelyn Lesse(Head of Engineering, Claude Platform)
  • Cat Wu(Head of Product, Claude Code)
  • Boris Cherny(Head of Claude Code)

加えて、Asana・Cursor・GitHub・Replit・Vercelといった主要プラットフォーム企業が、本番運用エージェントの設計・運用事例を共有した。

主要発表 — 実行環境への投資が並んだ

コンピュート供給能力の大型拡張

最初に前面に出たのは、モデルの賢さではなく、それを動かす電力とGPUだった。Anthropicは SpaceX との計算資源提携を発表している(Anthropic 公式ニュース「Higher usage limits for Claude and a compute deal with SpaceX」2026年5月)。テネシー州メンフィスの「Colossus 1」スーパーコンピュータの容量を Claude に振り向けるもので、300+メガワット の計算電力と、22万以上の NVIDIA GPU を「1ヶ月以内」に稼働開始させると開示された。背景にあるのは需要の急伸で、API利用量は前年比 約17倍 に拡大している。供給が追いつかなければ、賢いモデルがあっても本番では使えない——そういう局面に入ったことを、この提携は物語る。

同時に発表された利用枠の緩和も、同じ方向を向いている。Claude Code の5時間制限は Pro / Max / Team / Enterprise の全プランで 倍増 され、Pro / Max でピーク時間に効いていたスロットリングは 撤廃 された。Opus API のレート制限も引き上げられ、ティアによっては大幅な引き上げとの言及があった。要するに、容量上限が現場の本番投入を阻む典型的なボトルネックだったところを、ハード面とプラン面の両方から押し戻したことになる。

これは見方を変えれば、Anthropic自身が「次の競争はモデルの賢さではなく実行リソースの供給力にある」と判断していることを示すシグナルだ。推進担当者の側から読むなら、AIの調達は「どのモデルが優秀か」だけでなく「必要なときに必要な計算量を確保できる契約になっているか」を含む問題に変わりつつある、ということでもある。

Claude Managed Agents — 並列・品質保証・経験蓄積を本番運用へ

Claude Managed Agents は、AnthropicがホストするエージェントランタイムでマルチホップタスクをSLA下で運用するための環境だ。今回ここに加わった機能は、それぞれ「並列で動かす」「品質を保証する」「経験を蓄える」という、本番運用で順に立ちはだかる課題に対応している。

まず Multi-Agent Orchestration(パブリックベータ) は、リードエージェントがタスクを分解し、独立したモデル・プロンプト・ツールを持つ専門サブエージェントへ並列委譲する仕組みである。共有ファイルシステム上で動くため、たとえば「エンジニアリング障害調査」のように、デプロイ履歴・エラーログ・メトリクス・サポートチケットを同時並行で当たって全体像を組み立てる、といったユースケースが提示された。単一の長いプロンプトでこなしていた作業を、役割を分けて並走させる発想への移行といえる。

次の Outcomes(パブリックベータ) は、その並列処理が「速いが雑」に陥らないための歯止めだ。別の評価エージェントがタスク完了後に品質ルーブリックでスコア付けを行い、基準未達なら自動的に再実行する。Anthropicの内部ベンチマークでは、Word文書生成タスクで +8.4%、PowerPoint生成タスクで +10.1% の品質向上が報告され、Every社の「Spiralライティングエージェント」が本番運用に投入しているという。評価と再実行をプラットフォーム側のループに組み込んだ点が、PoCの「一発で動いたら成功」という発想との分かれ目になる。

3つめの Dreaming(研究プレビュー) は、運用を重ねるほどシステムが賢くなる仕掛けを狙う。セッション間にバックグラウンドで走り、過去のエージェントセッションとメモリストアをレビューしてパターンを抽出し、メモリをキュレーションする。繰り返される誤りや収束したワークフローの検出、チームで共有する嗜好の学習が想定されており、Anthropicは「エージェントシステムが、手動介入なしに長期運用で測定可能に改善する」と説明した。並列化・品質保証・経験蓄積の3つが揃って初めて、デモではなく業務システムとして回り始める——機能の並びそのものが、その順序を映している。

Claude Code 周辺ツール群 — 開発の「夜間自動化」を成立させる部品

Claude Codeチームからの発表は、個別の便利機能というより、ソフトウェア開発のループを人手なしで回すための部品が出揃った、という性格を持つ。中核に据えられたのが Routines で、Boris Cherny はこれを「高次プロンプト」と表現し、「開発者は非同期自動化をセットアップし、マージ準備完了のPRで目覚める」と述べた。残りの機能群は、この「寝ている間にPRが揃う」状態を品質面・安全面から成立させるための補完だと読める。

具体的には、CI auto-fix がCIの失敗を検出して自動修正し、Code Review(Anthropic社内の全チームが利用しているという)が変更内容をレビューし、Security Reviews がコミット前にセキュリティ観点で点検する。これらが連なることで、コード生成・テスト通過・レビュー・セキュリティ確認という工程を、開発者が逐一見守らなくても進められる構成になる。加えて Remote Agents は、スマートフォンからラップトップ上のClaude Codeを操作できるようにするもので、人間の介入を「常時監視」から「節目での承認」へ移す方向と一致する。要点は、単発のコーディング支援から、レビューと安全確認を内蔵した連続的なパイプラインへと重心が移ったことだ。

その到達点を示す顧客事例も共有された。Shopify、そして Mercado Libre は2026年Q3までに自動コーディング比率90%という目標を掲げており、eve は大型モデルが小型モデルへ助言する"advisor"構成により、最先端モデル品質を5倍低コストで実現したと紹介された(出典:Simon Willison「Live blog: Code w/ Claude 2026」2026年5月6日)。もっとも、自動化率を高めるほど「どこまでをAIに任せ、どこから人間がレビューするか」という線引きの設計が重くなる。技術的に夜間自動化が可能になることと、それを自社の品質基準・ガバナンスに整合させられることは、別の問題である。

Microsoft 365 Add-ins — 業務の現場に入り込むアプローチ

ここでの発表は、Claudeを別ウィンドウから呼び出すのではなく、Microsoft Word / Excel / PowerPoint の内部で直接動作させる アドイン群だった(Outlookは今後対応予定)。狙いは明快で、外部接続では拾えない「ソフトウェアネイティブなコンテキスト」——企業テンプレート、リンク済みスプレッドシート、既存のフォーマット慣例——にアクセスできる点が利点として強調された。実務担当者が日々作業しているアプリの中にAIが入ることで、コピー&ペーストの往復や、社内書式へ整え直す手間が減る。AIを使うために別のツールへ移動させるのではなく、既に使っているソフトの側へAIを寄せる発想である。

この動きを補強するのが、同時に発表された8つのデータコネクタパートナーだ。その中には信用・企業データの Moody'sDun & Bradstreet が含まれており、アプリ内のコンテキストに加えて外部の権威あるデータソースをエージェントが参照できる構図が見える。

Claude Finance — 金融特化エージェントが製品カテゴリへ

金融は、汎用エージェントを置いただけでは成果が出にくい領域だ。業務が定型化している一方で、扱うデータの出所と精度に厳しい要件があり、ワークフローが業界固有だからである。Claude Finance はそこに、ピッチビルダー、会議準備支援、市場調査、評価レビュー、月末クローザー、KYCスクリーナーといった、投資銀行・運用・与信といった現場の典型業務をそのまま写し取ったプリビルドエージェントを10種類用意してきた。つまり「汎用エージェントに金融の使い方を教え込む」のではなく、業務の型を初めから織り込んだ製品として提供する、という構えである。

この方向を支えているのが、専門データへの接続だ。新規データコネクタとして Dun & Bradstreet(企業認証)、Fiscal AI(市場分析)、Verisk(保険引受)が統合され、エージェントの判断が現場で使われる一次データに紐づくよう設計されている。性能面では、Vals AI の金融ベンチマーク(Finance Agent benchmark)で 64.37% を記録し、GPT-5.5(59.96%)や Gemini 3.1 Pro(59.72%)を上回ったと開示された。導入経路も、プラグイン・Claude Code 統合・マネージドエージェントの3形態が用意され、既存のワークフローに合わせて取り込めるようになっている。

これに加え、コンピュータビジョンとUIインタラクションの能力強化を狙って Vercept社の買収 も発表された。金融機関のAI活用全般については金融機関のAI活用近日公開で別途整理する予定だが、業務テンプレート・専門データ・ベンチマーク・導入経路がひと揃いで提示されたこと自体が、金融特化エージェントが「研究テーマ」から「製品カテゴリ」へ移行したことの証左といえる。

なぜ「新モデル」ではなく「実行環境」だったのか — AX Boostの解釈

これだけの発表が並んだにも関わらず、コアモデルの新世代は出ていない。これは何を意味するのか。コーディング・エージェントがたどってきた重心の移り変わりに沿って読むと、今回の転換の位置づけが見えてくる。下表は、その移り変わりをAX Boostの視点で整理したものだ。

段階 フォーカス 代表的取り組み
第1段階(〜2024頃) モデル品質競争 MMLU / HumanEval などベンチマークスコアの追求
第2段階(2024〜2025) エージェント原型 LangChain、AutoGPT、シングルエージェント実装の試行錯誤
第3段階(2026〜) 本番実行環境 マネージドエージェント、自動評価、永続メモリ、マルチエージェント、業務統合

当初の主戦場はモデルそのものの賢さで、次にそれを使ったエージェント実装の試行錯誤が続き、いま重心は本番実行環境へ移った。2026年のCode w/ Claudeは、この最後の段階への明確な軸足移動である。Multi-Agent Orchestration / Outcomes / Dreaming は、いずれも 「単発リクエスト」ではなく「長時間・反復・並列のジョブ」を前提とした機能群 であり、Dianne Pennが「モデルは数分から数時間単位の実行へ進化している」と言及したのもこの文脈にある。注意したいのは、段階が進んでも前の段階が消えるわけではない点だ。賢いモデルもエージェント設計も依然として前提であり、その上に運用基盤が積み上がる構造になっている。

これは、私たちが一貫して指摘してきた「PoCで動くだけでは本番に届かない」という構造課題と整合する。動くデモから、SLAを満たし、品質を保証し、組織知を蓄積し、業務統合された本番システムへの距離は依然として大きい。Anthropicの今回の投資先は、まさにその距離を縮める方向だ。

詳しくはAI PoC止まり脱出フレームワークAIエージェント業務導入の設計論を参照されたい。

AX推進担当者にとっての含意

今回の発表群は、推進担当者の仕事のどこに効いてくるのか。プラットフォームが進化したことで「組織が手放せること」と「むしろ組織が握り続けねばならないこと」がはっきり分かれた、というのが要点である。以下、その両面を順に見ていく。

評価ルーブリックを内製する力が、より直接の競争要因になる

Outcomes機能によって「自動評価 → 再実行」のループはプラットフォーム側に組み込まれた。だが、その評価が依拠する品質ルーブリックそのものは、依然として組織が定義しなければならない。何をもって「良い議事録」「良い提案書」とするかは業務ごとに異なり、ベンダーには代行できないからだ。ここで問われるのは、AIの品質を業務固有の基準で言語化する力である。AI評価フレームの実装論近日公開で論じた「LLM-as-Judge × ベンチマーク × 人手評価」の3層設計が、その土台になる。逆に、出力品質の判定基準を組織が持てないままだと、自動評価が回っても何を合格とすべきか定まらず、Outcomes の恩恵は限定的にとどまる。

MCPの業界標準としての位置が一段確定した

Microsoft 365 Add-ins も Claude Finance のコネクタ群も、いずれも MCP(Model Context Protocol)の文脈で動く。エージェント連携の業界標準としてのMCPの意味はMCP完全解説近日公開で整理した通りだが、今回名を連ねた統合パートナー——Moody's、Dun & Bradstreet、Verisk といった顔ぶれ——の規模感は、MCPがエンタープライズデータを流通させるインフラとして実用段階に入ったことを裏づける。データ連携の設計を考える際、独自プロトコルよりMCP前提で組む合理性が一段増した、と読んでよい。

インフラ供給能力が、AI戦略の前提条件として表に出てきた

300MW、22万GPUといった数字は、モデルベンダーがハイパースケーラと並ぶインフラプレイヤーになったことを示している。これは抽象的な業界トレンドの話ではない。自社で使うAIが、繁忙期や全社展開のタイミングで必要な計算量を確保できるか——という調達上の論点が、以前より現実味を帯びるということだ。業務AIインフラの技術選定近日公開で扱った技術スタックの議論に、容量契約・優先プラン・マルチベンダー戦略といった商務側の論点が重なってくる。

コーディング自動化率が、エンジニアリングのKPIに変わっていく

Mercado Libreが掲げた「2026年Q3までに自動コーディング比率90%」という目標は象徴的だ。これは単なる生産性指標ではなく、AIに任せる範囲と人間がレビューする範囲をどう設計するかという問題である。CI auto-fix・Code Review・Routines・Remote Agents が揃ったことで、エンジニアが寝ている間にマージ準備済みのPRが揃っている状態が技術的には射程に入った。とはいえ、自動化率を上げるほど、その自動化を組織の品質基準・ガバナンスにどう整合させるかが推進部門の宿題として残る。導入だけ進めて定着でつまずく典型はAI定着失敗の典型7パターンも参照されたい。

AIガバナンスの責任分担が、アーキテクチャの問題になる

Anthropicがメモリ・評価・オーケストレーションといった実行環境まで提供することは、「AIが何をしたか」の説明責任がプラットフォームと組織の間に分散することを意味する。どこまでがベンダーのログ・監査機能でカバーされ、どこからが組織側のガバナンス設計の責任なのか——その境界を引き直し、両者を整合させる作業が新たに必要になる。企業のAIガバナンス実務ガイドで論じた監査設計が、マルチエージェント時代に拡張されるかたちだ。なお、こうした投資の効果をどう測るかについてはAI ROIの測定方法も参照されたい。

限界・リスク・反例

発表をそのまま額面どおりに受け取るのは禁物で、いくつか割り引いて見るべき点がある。

まず成熟度の差だ。Dreamingは研究プレビュー段階にとどまり、本番運用への移行時期・SLA・価格は未開示で、実装が現場に届くまでには時間を要する。次に数値の前提で、Outcomes の +8.4% / +10.1% という改善幅は Anthropic内部ベンチマーク に基づくものであり、独立第三者評価ではない。タスクの性質が違えば結果も変わるため、組織固有の業務で同等の改善が出るかは自前で検証する必要がある。

依存関係にも注意がいる。Microsoft 365 Add-ins や Claude Finance は特定パートナーへの依存度が高く、エンタープライズでの採用は技術検証だけでなく商務・調達の段取りを含む話になる。さらに、計算リソースが SpaceX Colossus 1 へ大きく寄ることは、地政学的・電力供給的なリスク(米国テネシー州メンフィスの単一拠点への集中)と無縁ではなく、マルチクラウド・マルチベンダーの分散戦略は引き続き検討課題として残る。

「モデル発表がなかった」ことの解釈も慎重にしたい。Anthropicが実行環境へ軸足を移したからといって、競合のOpenAI / Google が同じアプローチをとるとは限らず、Codex / GitHub Copilot / Cursor 系の動向は並行してウォッチしておく必要がある。最後に運用面として、本会議はSFの後ロンドン(5月19-20日)と東京(6月開催予定)でも実施される。東京会場では地域パートナー向けに別アジェンダが提示される可能性が高いため、日本企業の推進担当者は東京会場の公式アナウンスを別途確認しておくとよい。

まとめ — 「PoC脱出のインフラ化」というメッセージ

Code w/ Claude 2026 SFの最大のメッセージは、「PoC脱出のためのインフラを、モデルベンダー側が用意し始めた」 ことに尽きる。マルチエージェント・自動評価・永続メモリ・業務統合は、いずれも企業がPoCを本番に進める過程で直面する技術課題であり、これらをプラットフォーム機能として提供する流れが本格化した。

ただし、プラットフォームが提供するのはあくまで「土台」である。業務固有の評価ルーブリック・ガバナンス設計・組織知の言語化は、依然として組織側が担う必要がある。AIベンダーの進化を活用しきるためには、「業務側の言語化」と「プラットフォーム側の活用」を同時に進められる組織能力が決定的になる。

そして、実行環境が整うほど問われるのは「何を自動化するか」より「何を人が手放し、空いた時間をどこへ振り向けるか」である。夜間にPRが揃い、議事録や提案書がエージェントから出てくるなら、その分の工数を見極めて引き算し、より価値の高い仕事へ再配置する設計こそが成果を分ける。この観点はAIは足し算ではなく引き算と再配置で詳しく論じている。

AX Boostは、FDE型コンサルティングとして、現場に入り込み、業務側の言語化とプラットフォーム側の選定・実装を並走支援している。今回発表されたような新機能を、組織にどう取り込み、どの業務領域で先行価値を出すか — その意思決定と実行を、伴走型ではなく 「同じ船に乗る」立場で 支援する。

Code w/ Claudeで示された方向性を自社のAI戦略にどう接続するかでお悩みの方は、AXコンサルティングとはAX支援サービスの選び方成果報酬型AIコンサルティングもあわせて参照されたい。


主要参考資料