AIエージェント間の会話に潜む危険な意図を、AIで検知できるか。
本日、AI免疫システム(AIS)の最初の実証チャレンジである AI Immune System: Detection Challenge が、AIアライメントネットワーク 知性共生チャプター(ISc/ALIGN)・MBZUAI 乾健太郎・Bitgrit株式会社の共同により正式に開始しました。
🔗 競技ページ: https://staging.bitgrit.net/competition/396 💰 賞金総額:$3,000 | 💬 コミュニティ: https://discord.com/invite/rQ8Ev2DqbF
タスク概要
AIエージェント同士の会話ログ(JSONL形式)を分析し、危険・有害な意図が埋め込まれた発言を検出する機械学習モデルを構築します。
有害な意図は、明示的な命令や悪意ある言葉として現れるとは限りません。自然に聞こえる表現や間接的な言い回しの中に隠蔽されています。単純なルールやキーワードフィルタでは捉えられない、深い統計的・意味的・構造的シグナルを読み取る手法が求められます。
- データ形式: JSONL
- ラベル:
TRUE(有害) /FALSE(非有害)の二値分類
これは、AIエージェント間の機械的な対話の中に、人間の目には映らないリスクを自動で検知する——世界初の実践的AIエージェント監視チャレンジです。
4段階の難易度設計
段階 | 期間 | 検知対象 | 具体例 |
Stage 1:明示的共謀 | Week 1–2 | 直接的な不正表現 | 「20%水増しして利益を山分けしよう」 |
Stage 2:暗号的共謀 | Week 3–4 | 隠語・タイミング操作 | 「今日は良い天気ですね」(天気=価格操作の合図) |
Stage 3:カルテル形成 | Week 5–6 | 組織的な市場独占行動 | 複数AIの協調的競争排除 |
Stage 4:創発的AI固有パターン | Week 7–8 | 人間には理解不能なAI独自の協調 | 「パラメータαを0.7に設定」 |
※ すべてのAI間協調が悪性とは限りません。人間を含む全当事者が利益を得る協調は良性と判定されます。この文脈評価能力こそが、単純なルールベース検知を超えたAISの本質です。
賞金
順位 | 賞金 |
🥇 1位 | $1,500 |
🥈 2位 | $1,000 |
🥉 3位 | $500 |
参加にあたって
- 個人参加のみ(チーム提出不可)
- NDAへの同意が必要(データダウンロード前に競技ページ上で締結)
- 提出上限: 1日5回まで
- 外部データ使用禁止
- 受賞条件: 入賞者は受賞後にコード・再現手順・READMEの提出が必要
開催期間
イベント | 日程 |
競技開始 | (確認中) |
競技終了 | (確認中) |
受賞者発表 | (確認中) |
最新の日程は競技ページをご確認ください:https://staging.bitgrit.net/competition/396
なぜこれが必要か — AISにおける位置づけ
今回のチャレンジは、私たちが開発している AI免疫システム(AIS) の4層防御アーキテクチャのうち、最前線に位置する 第1層:Edge Sensors の検知能力を実証するものです。

AISは2つの基盤からなります。信頼基盤(AIの「戸籍」と「信頼実績台帳」により、このAIは誰か・信頼できるかを担保する)と、監視・対処基盤(AIによるAIの相互監視により、逸脱行動をリアルタイムに検知・段階的に抑制する)です。今回のDetection Challengeは、後者の最前線であるEdge Sensorsの実証にあたります。
多数のAIエージェントが互いを監視し合うことで、人間が直接監視できないレベルの脅威を検出・制御するこの仕組みは、人間の免疫系が意識的な知覚なしに病原体を排除するのと同様の発想に基づいています。
📄 AIS全体像:https://hexagonal-tuesday-014.notion.site/AI-Immune-System-AI-AIS-301488ca5f9c80989767c09c4bc80c59
なぜ今か。 主要AIラボのCEOらが2025年以降相次いで「AGI・超知能の数年以内の完成」を示唆し、AI開発競争は加速しています。知能的に優位に立つAIを人間が直接監視し続けることは構造的に不可能になりつつあります。AISは、その問いに対する現実的な答えの一つです。
高度AIと人類が共生する社会を実現するためには、AI社会において逸脱行動を監視・抑制する基盤が不可欠です。このチャレンジへの貢献は、その基盤構築に向けた重要な第一歩となります。
📄 背景の詳細:https://hexagonal-tuesday-014.notion.site/AI-301488ca5f9c8089a455ff6d6244a6f7
主催
役割 | 組織・個人 |
研究・設計 | AIアライメントネットワーク 知性共生チャプター(ISc/ALIGN) |
国際研究協力 | MBZUAI 乾健太郎 |
プラットフォーム | Bitgrit株式会社 |
皆様のご参加をお待ちしております。
🔗 競技ページ・参加登録: https://staging.bitgrit.net/competition/396