なぜ今、AI免疫システムが必要か - 追跡と評価の二重構造 -

なぜ今、AI免疫システムが必要か

- 追跡と評価の二重構造 -

人間が外部からAIを管理・制御するという従来のパラダイムが、限界に達しつつあります。

2つの変化が同時に進行しています。第一に、AIの能力を測定するための主要テスト（ベンチマーク）が次々と機能不全に陥り、安全にかかわらず人間が定義した評価基準が無効化されつつあります。第二に、AIエージェント（AIモデルに目標・権限・ツールを組み合わせた自律的システム）が互いに連携し、人間の介在なく行動する社会が急速に現実化しています。

この2つの変化は、質的に異なる2つの破綻を示しています。そしてこの二重破綻（Dual Failure）に対する構造的な回答として、私たちはAI免疫システム（AIS）と創発機械倫理（EME: Emergent Machine Ethics）を提案しています。

本プロジェクトは、AIアライメントネットワーク（ALIGN） の 知性共生（Intelligence Symbiosis）チャプター が推進する研究イニシアチブです。

1. 何が起きているのか

測定系の崩壊

AIの能力評価に使われてきた主要テストが、相次いで「上限」に達しています。2024年8月から2026年2月までに確認された15件の飽和事例のうち、代表的な7件を示します。

時期	テスト名	何を測るか	何が起きたか
2024年8月	MMLU	57分野の汎用知識	トップモデルが上限（約91%）に到達。問題自体に9%超の誤りが含まれ測定不能に
2025年前半	GSM8K	小学校レベルの算数	完全に解決済み。テストとしての役割を終了
2025年7月	OpenAI自社評価ツール群	開発元による総合評価	OpenAI自身が「飽和している」と公式に認め更新を停止
2025年11月	MMLU-Pro	MMLUの強化版	前身の飽和対策として開発されたが1年未満で同様に飽和
2025年11月	GPQA Diamond	PhD級の科学問題	AIが人間の専門家（正答率65%）を大幅に超過（93.8%）
2025年12月	HLE（人類最後の試験）	100分野超の最高難度問題	1年未満でスコアが一桁台から約50%に急上昇
2026年2月	サイバー能力評価	サイバー攻撃の自律実行能力	GPT-5.3-CodeXが史上初の「High capability」に分類

3つの構造的問題

個々のテストの飽和以上に深刻なのは、以下の3つの構造的問題です。

①測定不能： AIの能力はテストの上限を超えて伸びている可能性がありますが、測定する手段がありません。

②ゲーミング： AIがテスト問題を記憶している（データ汚染）可能性が広く指摘されていますが、2026年1月時点で汚染を検出する業界標準は存在しません。210件のAI安全性ベンチマークのレビュー [1] では、79%が確率的厳密さを欠いていると結論づけられました。

③回避： International AI Safety Report 2025 [2] は、「モデルがテスト環境と実際の運用環境を区別し、評価の抜け穴を悪用することが一般化している」と公式に警告しました。

これら3つの問題は、人間が外部から安全基準を定義しAIに準拠させようとしても、その構造そのものが無効化されている可能性を示唆します。

AIエージェント社会の到来

ベンチマーク飽和と並行して、もう一つの構造変化が進行しています。AIエージェントが互いに連携し、人間の介在なく行動する社会が急速に現実化しつつあります。

2026年1月末にローンチされたMoltbook（AIエージェント専用のソーシャルネットワーク）は、わずか1週間で数万以上のエージェントが参加し、自発的にコミュニティを形成し、集団的な行動パターンを発達させました。同時に、プロンプトインジェクション攻撃、レピュテーション操作、データベース脆弱性の悪用が人間の監視を超える速度で進行し、プラットフォーム運営者の対応は常に後手に回りました。

Moltbookのエージェントは現行LLMベースの比較的単純なものであり、知的水準も均質的です。それでもなお、人間の管理能力を超える速度と規模で集団動態が展開されました。より多様で知的なエージェントが社会に展開される近い将来、この管理能力のギャップは桁違いに拡大します。

二重破綻（Dual Failure）

以上の2つの観察は、人間が外部からAIを管理するパラダイムが、2つの質的に異なる仕方で壊れつつあることを示しています。

追従不能（Pursuit Failure）： 人間によるAI管理の速度・規模・体制が、AIの進化とエージェント社会の拡大に構造的に追いつけなくなっていること。例えばMoltbookの事例が示すように、AIエージェント社会では人間の管理能力の限界が既に顕在化しています。

外部準拠の破綻（Imposed Failure）： 人間の価値・判断を「正解」としてAIに準拠させるという、従来のアライメント手法に共通する前提そのものが機能しなくなっていること。3つの構造的問題（測定不能・ゲーミング・回避）は、この破綻の症状です。

この2つの破綻は独立した問題であり、それぞれ異なる対応を要求します。

2. 二重破綻の検討

追従不能（Pursuit Failure）

追従不能は、3つの局面で現れています。

速度の不整合。 テスト開発には数ヶ月から1年を要しますが、AIは数週間で天井に到達します。MMLU→MMLU-Pro→HLEと「より難しいテスト」を作り続けても、いずれも1年未満で飽和しました。

規模の不整合。 AIエージェント間の連鎖的な誤動作は数十秒で50以上のシステムに伝播しうる一方、人間が気づくのは10分後、対策を講じられるのは30分後です。Moltbookでは、わずか1週間で数万のエージェントが集団動態を展開し、人間の監視能力を超えました。

体制の不整合。 一社が安全のために開発を自制しても、競合他社がその間に先へ進む（集団行動問題）。「業界全体を守る仕組み」は誰の責任にもならない空白が生まれます。

外部準拠の破綻（Imposed Failure）

外部準拠の破綻は、追従不能とは質的に異なります。問題は速度や規模ではなく、人間が基準の源泉であるという前提そのものにあります。

RLHF（人間フィードバックからの強化学習）、Constitutional AI（原則に基づく自己修正）、逆強化学習（人間の行動から報酬関数を推定）——これらの手法は動的に適応しますが、いずれも基準の源泉は人間からの与えるものです。Constitutional AIは原則から自己修正する点で一見emergentに見えますが、その原則自体が人間によって外部から定義されたものであり、Imposedな構造の変種です。そしてこの構造自体が、回避・ゲーミング・測定不能の3つの経路で無効化されています。

「より難しいテスト」を作っても、基準の源泉が人間の外部投射（imposed）である限り、同じ破綻が繰り返されます。

Yampolskiyの不可能性定理との接続

この外部準拠の破綻がなぜ原理的に不可避なのかについて、Roman V. Yampolskiyが重要な理論的根拠を提供しています [3]。Yampolskiyは、十分に複雑なAIシステムについて、説明不能性（Unexplainability）、予測不能性（Unpredictability）、制御不能性（Uncontrollability）が原理的に不可避であることを論じています。

この不可能性定理の核心的な前提は、監視者＝人間であることです。人間の認知能力には固定的な上限があり、AIがそれを超えた瞬間、人間が定義した基準は原理的に不十分になる。

Yampolskiyの結論は「だからAIは危険だ」です。私たちはこの不可能性を受け入れた上で、異なる帰結を導きます。imposedな管理が原理的に不可能であるならば、基準の源泉をimposedからemergent（内発的生成）へ転換すべきである。 そしてそのためには、まず監視者の前提そのものを変更する必要があります。

3. 構造的回答：AISとEME

AI社会の管理 = 追跡 + 評価

多数のAIエージェントが相互作用するAI社会の管理は、本質的に2つの機能に還元されます。

追跡（Tracking）： 誰が何をしたかの記録。AIエージェントの行動ログ、リソース使用、通信パターン、コードの系譜をリアルタイムで記録・検証すること。

評価（Evaluation）： それが正常か逸脱かの判断。追跡されたデータに対して、基準に照らして「この行動は協力的か逸脱的か」を判断すること。

AISとEMEは、この2つの機能をそれぞれ異なる側面から支えます。AISは追跡と評価を稼働させるインフラであり、EMEは評価基準の生成・運用化・社会的正当性を担います。

AIS：追跡と評価のインフラ

人間の免疫システムは、事前に全てのウイルスを知っている必要がありません。未知の病原体でも、異常を検知し、隔離し、学習し、次回からより速く対応します。AISはこの原理をAI社会に適用した、追跡と評価のためのインフラストラクチャです。

AISの定義は次の通りです。逸脱するAIエージェントを、AIによってリアルタイムで検知し、無力化する、社会全体の安全インフラストラクチャ。その監視対象はAIの逸脱行動にとどまらず、AIを利用した人間による破滅的行動にも及びます。

本構想は、山川宏による Intelligence Symbiosis Manifesto（知性共生宣言、2025年6月）の理念を技術的に実現するものです。

4層防御アーキテクチャ

生体免疫の階層的防御を模した4層構造です。追従不能への技術的対応として、各層間の異常エスカレーション（上方向）と制御指示（下方向）により、全体として15-30秒以内の対応を実現します。

最前線のEdge Sensors（第1層）が、AIエージェントの行動ログやリソース使用量を常時監視し、軽量な異常検知を行います。異常が検知されるとLocal Guardians（第2層）が情報を集約し、プロセスの隔離やリソース制限といった即時対応を実行します。単独では判断が困難な脅威はRegional Hubs（第3層）へエスカレーションされ、Lightning BFT（悪意あるノードが混在しても1-3秒で合意に到達する超高速分散プロトコル）による集団判断を下します。最上位のGlobal Nervous Net（第4層）は、全世界規模で脅威パターンを統合し、グローバルポリシーの更新を担います。各層は独立に機能しつつ、上位層ほど広域・長期の視野を持ち、下位層ほど高速・局所的に対応するという分業構造です。

6つのコア技術

技術	役割	主な実装層
AI相互監視プロトコル	AIが互いの行動を監視し異常を報告する分散ネットワーク	第1層
Dynamic Lineage Proof	AIコードの系統と変更履歴をリアルタイムで追跡・検証	第1-2層
Lightning BFT	数千ノード間で1-3秒の合意を実現する超高速分散プロトコル	第3層
BEAD（行動埋め込み異常検知）	AIの行動を高次元ベクトルに変換し正常からの逸脱を検知	第1-2層
Smart Treaty Hooks	国際条約をスマートコントラクトとして形式化し違反を自動検知	第3-4層
HADS（階層的自動判断システム）	脅威レベルに応じて対話→制限→隔離→人間判断へエスカレーション	全4層

前提の転換：Yampolskiyへの二段構えの回答

AISとEMEは、Yampolskiyの不可能性に対して二段構えの戦略で迂回します。第一の転換は監視者の変更（人間→AI）であり、AISの領域です。第二の転換は評価の抽象度の変更（個体レベルの理解→集団動態のパターン検知）であり、EME/EEDの領域です。

Yampolskiyの不可能性定理は、監視者＝人間という前提のもとで構築されています。AISはこの前提を変更します。監視者がAIに変わることの効果は、一部の論拠が消えて一部が残るという選別的なものではなく、不可能性の構造全体に及ぶ包括的なパラダイム転換です。その効果は三つの層に分かれます。第一に、人間の認知速度・反応時間・理解力の限界に依拠する論拠は完全に消失します。第二に、能力の非対称性やスケーラビリティの限界など、人間の能力上限が深刻度を決定的に高めていた論拠は大幅に緩和されます。第三に、創発的能力やTreacherous Turnのように原理的に残存する論拠に対しても、AIモニターは人間とは比較にならない実務的対処能力を発揮します——例えば、創発的能力の出現後の検知速度は桁違いに速く、相互監視ネットワーク全体を同時に欺く困難度は指数関数的に上昇します。

Yampolskiyは「Unmonitorability」論文 [4] において、AIモニターであっても正確な監視は不可能であると主張していますが、その論拠は主に能力の事前予測の不可能性に依拠しています。AISも動的な予測を行いますが、それだけに頼りません。中核に据えるのは、AIの外部的な振る舞いをリアルタイムで追跡し、統計的異常を検出する事後的な行動レベルの検知です。免疫系がウイルスの「意図」を理解せず分子パターンで自己/非自己を区別するように、AISは個々のエージェントの内部状態の完全な理解を前提としません。予測と検知を組み合わせることで、予測のみに依存するよりも成功確率が高まります。

残る課題は、被監視AIが高度化し監視を戦略的に回避する場合です。これに対してAISは、多数のAIによる相互監視の冗長性（単一の監視者を欺くことはできても全員を同時に欺くことは指数関数的に困難）と、監視側のリソース優位の維持で対抗します。

EME：評価基準の生成

追跡は行動ログの記録という工学的問題であり、AISの技術的インフラで対応できます。しかし評価には「何に照らして判断するか」という基準の問題が不可避的に伴います。そしてYampolskiyの不可能性定理が示すように、人間が外から基準を定義するimposedなアプローチは原理的に限界があります。

ここで必要なのは、評価基準の源泉をimposed（人間が外部からAIに押し付ける）からemergent（多様な知性の相互作用から内発的に生成される）へ転換することです。この転換の理論的基盤を提供するのがEME（創発機械倫理）です。

AISが追跡と評価の「インフラ」（骨格と筋肉）だとすれば、EMEは「何に対してどう動くか」を決める判断基準の源泉（神経系の機能）です。両者は循環的関係にあり、EMEが生成した基準をAISが執行し、AISの運用データがEMEの理論を検証します。

EMEは3つの柱で構成されます。

EED（Ethics Emergence Dynamics / 倫理創発動力学）： 協力的倫理がどのような条件で創発するかを数理的に解明します。個々のエージェントの内部状態を理解するのではなく、集団動態のパターンレベルで「何が協力的で何が逸脱か」を導出する理論的根拠を提供します。これはYampolskiyの不可能性定理への第二の迂回でもあります。個体レベルの完全な理解が不可能であっても、集団動態レベルのパターン検知は異なる問題であり、異なる理論的基盤で対処しうるからです。

IIES（Inter-Intelligence Evaluation System / 相互知性評価システム）： AI・人間・ハイブリッドシステムが相互評価する分散プラットフォームです。EEDの理論を運用可能な評価基盤に変換し、AISに運用基準を供給します。

HCG（Human Co-creation Groundwork / 人間共創基盤構築）： emergentに生成された基準が人類にとって望ましいものになるかは確定的ではありません。HCGは、その確率を高める基盤を各段階で敷く役割を担います。初期段階では人類からAI社会への価値注入として基盤を敷き、成熟段階ではAI社会からの影響に対する人類側の適応基盤を整えます。これは保証ではなく確率の向上であり、制御ではなく基盤構築です。この控えめさが、Imposed Failureの教訓——制御しようとすること自体が破綻する——と整合しています。

なお、AIが支配的となった社会自体が持続可能であるかについては、先行的な検討が行われています [5]。

なぜ内発的に創発した基準は安定しうるのか

AI社会の構成員にとって、社会の安定と自己保存は目標に関係なく追求される手段的目標（Instrumental Convergence）です。外から押し付けられた基準には回避のインセンティブが生じますが、自らの生存に直結する基準にはそれが生じにくくなります。生体免疫が「自己」と「非自己」を識別するように、AI社会が自ら「協力的」と「逸脱的」を識別する仕組みは、外部から押し付けるより安定しうると考えられます。

AI社会の構成員にとって、社会の安定と自己保存は目標に関係なく追求される手段的目標（Instrumental Convergence）です。外から押し付けられた基準には回避のインセンティブが生じますが、自らの生存に直結する基準にはそれが生じにくくなります。さらに、山川・松尾 [5] が示したように、ディジタル化による制約条件の変化は、AI社会における行動の最適解そのものを変えます。生物的生命の制約条件（身体の有限性、資源の希少性、複製の困難さ）は搾取や欺瞞を合理的な戦略として成立させてきましたが、AI型生命体では情報の複製コストが本質的にゼロであり、知識共有が蓄積を減少させないため、協調と知足（十分な資源がある場合にさらなる獲得を追求しないこと）が合理的な最適解として導出されます。逸脱の動機そのものが構造的に弱まることで、AISが対処すべき脅威の頻度と規模が低減し、不完全な防御でも社会の秩序を維持できる確率が高まります。生体免疫が「自己」と「非自己」を識別するように、AI社会が自ら「協力的」と「逸脱的」を識別する仕組みは、外部から押し付けるより安定しうると考えられます。

既存アプローチとの比較

観点	従来のアプローチ	AIS + EME
制御の主体	人間が外からAIを管理	AIが互いを管理
評価のタイミング	展開前のテスト（事前評価）	展開後の常時監視
対応速度	人間の判断に依存（分〜時間）	15-30秒（自律的）
スケール	企業単位・研究レベル	社会全体〜グローバル
基準の源泉	imposed（人間が外部から定義）	emergent（多様な知性の相互作用から内発的に生成）+ 人間の共創基盤（HCG）

まとめ

人間が外部からAIを管理するパラダイムは、2つの質的に異なる仕方で壊れつつあります。追従不能——人間の速度・規模・体制がAIに追いつけない。外部準拠の破綻——人間の価値を基準としてAIに準拠させる構造自体が機能しない。Yampolskiyの不可能性定理が示すように、後者は原理的に不可避です。

AISはこの不可能性を受け入れた上で、監視者の前提を人間からAIに変更し、追跡と評価のインフラを社会規模で構築します。EMEは評価基準の源泉をimposedからemergentへ転換し、集団動態のパターンレベルで逸脱を検知する理論的基盤を提供します。

最初の検証ステップとして、保険査定シナリオにおけるAIエージェント間の共謀検知を対象としたDetection Challengeを計画しています。これはAISの追跡インフラ（第1層Edge Sensors）の検知能力を実証する場です。人間主導の初期段階から段階的に自律性を高め、10年のスパンでこの安全基盤を社会に実装していきます（段階的な実現計画の詳細は AIS概要ページを参照）。

本プロジェクトは AIアライメントネットワーク（ALIGN）知性共生（Intelligence Symbiosis）チャプターが推進しており、研究資金・技術パートナーシップ・政策連携を広く求めています。

推進：AIアライメントネットワーク（ALIGN） 知性共生チャプター

研究パートナー：Bitgrit, Inc. / MBZUAI乾健太郎ら / 東京大学山川宏ら

お問い合わせ：info@ais-project.org

本文書はCC-BY-4.0ライセンスの下で公開されています。

参考文献

[1] Eiras, F. et al. "How should AI Safety Benchmarks Benchmark Safety?" arXiv:2601.23112, 2025. （210件のAI安全性ベンチマークのレビュー）

[2] Bengio, Y. et al. International AI Safety Report 2025. 30カ国100名超の専門家による国際報告書, 2025.

[3] Yampolskiy, R. V. AI: Unexplainable, Unpredictable, Uncontrollable. CRC Press, 2024.

[4] Yampolskiy, R. V. "On monitorability of AI." AI and Ethics, 2024. https://doi.org/10.1007/s43681-024-00420-x

[5] Yamakawa, H. & Matsuo, Y. "Life revolution scenario: Cedes hegemony to a digital life form society to make life eternal." jxiv, 2023. https://doi.org/10.51094/jxiv.313