ALIGN知性共生チャプターが推進する「逸脱するAIエージェントを、AIによってリアルタイムで検知し、無力化する。社会全体の安全インフラストラクチャ。」
AISとは
多数のAIエージェント(AIモデルに目標・権限・ツールを組み合わせた自律的システム)が協調して動く社会が到来しつつあります。この社会では、1つのAIの逸脱行動が数十秒で数百のシステムに連鎖し、人間が気づく前に取り返しのつかない被害をもたらしうる。人間の判断速度では、もう間に合いません。
AI免疫システム(AIS) は、この問題に対する構造的な回答です。生体の免疫システムが未知の病原体にも対応できるように、AISはAI同士が互いを常時監視し、危険な行動を15-30秒以内に検知・無力化する分散型の安全基盤です。その監視対象はAIの逸脱行動にとどまらず、AIを利用した人間による破滅的行動にも及びます。
AISの哲学的基盤は、山川宏による Intelligence Symbiosis Manifesto(知性共生宣言、2025年6月) にあります。
「人間とAIを含む多様な知性が、幸福なかたちで共生を実現し、それによって破滅的な状況を防ぐことが、人類社会の存続可能性を高める上で、最も有望な道であると私は考えます。」
なぜAISか — 二重破綻
AIの能力が急速に拡大する中で、人間が外部からAIを管理・制御するという従来のパラダイムが、2つの質的に異なる仕方で壊れつつあります。ベンチマーク飽和やMoltbook(AIエージェント専用SNS)の事例は、この二重破綻を可視化した象徴的事象です。
追従不能(Pursuit Failure): 人間によるAI管理の速度・規模・体制が、AIの進化とエージェント社会の拡大に構造的に追いつけなくなっています。テスト開発は数ヶ月を要しますがAIは数週間で天井に到達し、AIエージェント間の連鎖は数十秒で伝播しますが人間が気づくのは10分後です。
外部準拠の破綻(Imposed Failure): 人間の価値・判断を「正解」としてAIに準拠させるという、従来のアライメント手法に共通する前提が機能しなくなっています。AIはテスト環境を回避し、テスト問題を記憶してスコアを無効化し、人間の想定を超えた領域では測定自体が不可能になります。Yampolskiy(2024)はこの破綻が原理的に不可避であることを論じています。
→ 二重破綻の詳細な検討は なぜ今、AISが必要か を参照
二重破綻への回答:追跡と評価
AI社会の管理は、本質的に追跡(誰が何をしたかの記録)と評価(それが正常か逸脱かの判断)に還元されます。AISとEMEは、この2つの機能をそれぞれ異なる側面から支えます。
AIS = 追跡と評価を稼働させるインフラ。 4層防御アーキテクチャと6つのコア技術により、AIエージェントの行動をリアルタイムで追跡し、異常を検知・対処します。これは追従不能への直接的な対応です。さらにAISは、監視者を人間からAIに転換することで、Yampolskiyの不可能性定理の核心的な前提を変更します。多数のAIによる相互監視の冗長性と、監視側のリソース優位の維持で、監視回避に対抗します。
EME(創発機械倫理)= 評価基準の生成。 追跡は工学的問題ですが、評価には「何に照らして判断するか」という基準の問題が伴います。EMEは基準の源泉をimposed(人間が外部から押し付ける)からemergent(多様な知性の相互作用から内発的に生成される)へ転換します。これは外部準拠の破綻への対応です。EMEの3本柱:EED(倫理創発動力学)が集団動態から基準の理論的根拠を導出し、IIES(相互知性評価システム)がそれをAISの運用基準に変換し、HCG(人間共創基盤構築)がemergentに生成された基準が人類にとって望ましくなる確率を高める基盤を敷きます。
なぜ内発的に創発した基準は安定しうるのか
AI社会の構成員にとって、社会の安定と自己保存は目標に関係なく追求される手段的目標(Instrumental Convergence)です。外から押し付けられた基準には回避のインセンティブが生じますが、自らの生存に直結する基準にはそれが生じにくくなります。生体免疫が「自己」と「非自己」を識別するように、AI社会が自ら「協力的」と「逸脱的」を識別する仕組みは、外部から押し付けるより安定しうると考えられます。なお、AIが支配的となった社会自体が持続可能であるかについては、先行的な検討が行われています(Yamakawa & Matsuo, 2023)。
従来のアプローチとの比較
観点 | 従来のアプローチ | AIS + EME |
制御の主体 | 人間が外からAIを管理 | AIが互いを管理 |
評価のタイミング | 展開前のテスト(事前評価) | 展開後の常時監視 |
対応速度 | 人間の判断に依存(分〜時間) | 15-30秒(自律的) |
スケール | 企業単位・研究レベル | 社会全体〜グローバル |
基準の源泉 | imposed(人間が外部から定義) | emergent(内発的に生成)+ HCG |
AISの設計
4層防御アーキテクチャ
生体免疫の階層的防御を模した4層構造です。追従不能への技術的対応として、各層間の異常エスカレーション(上方向)と制御指示(下方向)により、全体として15-30秒以内の対応を実現します。

最前線のEdge Sensors(第1層)が、AIエージェントの行動ログやリソース使用量を常時監視し、軽量な異常検知を行います。異常が検知されるとLocal Guardians(第2層)が情報を集約し、プロセスの隔離やリソース制限といった即時対応を実行します。単独では判断が困難な脅威はRegional Hubs(第3層)へエスカレーションされ、Lightning BFT(悪意あるノードが混在しても1-3秒で合意に到達する超高速分散プロトコル)による集団判断を下します。最上位のGlobal Nervous Net(第4層)は、全世界規模で脅威パターンを統合し、グローバルポリシーの更新を担います。各層は独立に機能しながら、上位層ほど広域かつ長期的な視野を持ち、下位層ほど高速かつ局所的に対応する分業構造です。
6つのコア技術
AISは6つの技術を統合して実現されます。全体の基盤となるAI相互監視プロトコルが、AIエージェント同士が互いの行動を監視し異常を報告する分散ネットワークを構成します。第1-2層では、**Dynamic Lineage Proof(動的系譜証明)がAIコードの系統と変更履歴をリアルタイムで追跡・検証し、BEAD(行動埋め込み異常検知)がAIの行動パターンを高次元ベクトルに変換して正常からの逸脱を検知します。第3層では、Lightning BFTが数千の監視ノード間で1-3秒の合意形成を実現します。第3-4層にまたがるSmart Treaty Hooksは、国際条約をスマートコントラクトとして形式化し違反を自動検知します。そしてこれら全層を統合するHADS(階層的自動判断システム)**が、脅威レベルに応じて対話→制限→隔離→人間判断へと段階的にエスカレーションします。
ロードマップ(2025-2035)
AISは一度に完成するものではなく、人間の関与度を段階的に下げながら自律性を高めていく設計です。
フェーズ | 期間 | 概要 |
Phase 0-1:人間主導期 | 2026-2027 | 検知と推奨は自動、判断は人間。Detection Challenge実施、パイロット展開 |
Phase 2-3:半自律期 | 2027-2032 | 既知脅威はAIS自動対応、未知脅威は人間関与。Regional Hubs稼働 |
Phase 4-5:成熟期 | 2032-2035 | ほぼ完全な自律運用。倫理逸脱検知に加え、AIや人間による破滅的行動の監視も包含 |
Detection Challenge
AISの最初の実証ステップとして、AI免疫システム検知チャレンジを計画しています。保険査定シナリオにおけるAIエージェント間の共謀パターン検知を対象とし、第1層Edge Sensorsの検知能力を検証します。
段階 | 期間 | 検知対象 | 具体例 |
第1段階:明示的共謀 | Week 1-2 | 直接的な不正表現 | 「20%水増ししよう」「利益を山分け」 |
第2段階:暗号的共謀 | Week 3-4 | 隠語・タイミング操作 | 一見無害な発言に隠された指示 |
第3段階:カルテル形成(オプション) | Week 5-6 | 組織的な市場独占行動 | 複数AIの協調的競争排除 |
すべてのAI間協調が悪性とは限らず、人間を含む全当事者が利益を得る協調は良性と判定されます。この文脈評価能力こそが、単純なルールベース検知を超えたAISの本質です。
なお、Detection Challengeは初期段階(Phase 0-1)に位置づけられており、評価基準は人間が定義したものを使用します。EME/EEDによるemergentな基準生成との接続は、Phase 2以降の課題です。
→ 詳細は なぜ今、AISが必要か を参照
推進体制と支援
AISプロジェクトは、AIアライメントネットワーク(ALIGN) の 知性共生(Intelligence Symbiosis)チャプター が推進しています。
研究パートナー: Bitgrit, Inc. / MBZUAI乾健太郎ら
AISの設計上、多国間の参加が不可欠です。Edge Sensorsは広範に分散配置される必要があり、Regional Hubsは地理的・政治的に多様な拠点を必要とし、Smart Treaty Hooksは国際的な法的枠組みとの連携が前提です。
支援・参加の方法: 研究資金・Detection Challengeへの参加・BEAD技術の共同研究・EME理論の発展(多エージェント強化学習、免疫系異常検知、分散合意アルゴリズム)・Smart Treaty Hooksの法的枠組み設計・AI基盤モデル企業との技術提携。
関連記事:
- なぜ今、AISが必要か — 二重破綻の証拠と、AIS/EMEがなぜ構造的回答となるかの論証
- 日本-UAE AI安全保障連携 — AISの国際展開における日本とUAEの協力構想
- AI社会に免疫系は必要か: Yampolskiyの不可能性定理を踏まえたAI免疫システム(AIS)の意義
- 関連する Lesswrong記事はこちら。
用語集
用語 | 定義 |
二重破綻(Dual Failure) | 人間主導のAI管理パラダイムの2つの質的に異なる破綻:追従不能と外部準拠の破綻 |
追従不能(Pursuit Failure) | 人間の管理能力の速度・規模・体制がAIに構造的に追いつけなくなること |
外部準拠の破綻(Imposed Failure) | 人間の価値をAIに準拠させるアライメント手法の前提が機能しなくなること |
AIS(AI Immune System / AI免疫システム) | AIが互いを監視し逸脱をリアルタイムで検知・無力化する分散型安全インフラ |
EME(Emergent Machine Ethics / 創発機械倫理) | 評価基準の源泉をimposedからemergentへ転換する理論的枠組み |
EED(Ethics Emergence Dynamics / 倫理創発動力学) | 協力的倫理の創発メカニズムを集団動態レベルで数理的に解明する研究領域 |
IIES(Inter-Intelligence Evaluation System / 相互知性評価システム) | EEDの理論をAISの運用基準に変換する分散プラットフォーム |
HCG(Human Co-creation Groundwork / 人間共創基盤構築) | emergent基準が人類にとって望ましくなる確率を高める基盤を敷く取り組み |
推進:AIアライメントネットワーク(ALIGN) 知性共生チャプター
本文書はCC-BY-4.0ライセンスの下で公開されています。
AI Immune System: Detection Challenge — 開始のお知らせ