グローバルAI安全報告書、能力の加速に伴い高まるリスクを警告

人工知能システムは国際数学オリンピックの問題で金メダル級の成績を収め、熟練プログラマーが30分かかるソフトウェア工学タスクを完了し、博士課程レベルの科学問題に専門家に匹敵する水準で回答できる。現在、週に約7億人がこれらのシステムを利用している。

これらは『国際AI安全報告書2026』に記載された能力指標の一部である。同報告書はブレッチリー・パークでの2023年AI安全サミットを受けて各国首脳が策定を要請したシリーズの第2版である。本報告書はモントリオール大学のヨシュア・ベンジオ教授の議長のもと、欧州連合（EU）、経済協力開発機構（OECD）、国連を含む30カ国以上及び国際機関から指名された専門家諮問パネルの指導のもと作成された。

本報告書の中核的知見は、AI能力が急速に進歩し続ける一方で、その能力に伴うリスクはもはや将来のシナリオに限定されないという点である。複数の危害カテゴリーは既に発生しており、その他の危害の証拠も増加中である。これらを管理するためのガバナンス枠組みは、ほとんどの管轄区域において依然として主に任意的なものに留まっている。2025年1月に第1回国際AI安全報告書が公表されて以来、最も重要な技術的進展は推論時スケーリングの広範な採用である。開発者は、より大規模なモデルを訓練するだけで性能を向上させるのではなく、出力生成時にモデルが追加の計算能力を利用できるようにすることで、最終回答を提示する前に中間推論ステップを生成し、大幅な能力向上を達成した。この技術は、数学、コーディング、科学的推論において特に顕著な性能向上をもたらした。ソフトウェア工学分野では、AIエージェントが人間のプログラマーで約30分かかると推定されるタスクを確実に完了できるようになった。これは、わずか1年前には10分未満のタスクに過ぎなかった。

ただし報告書は、タスク種別による能力のばらつきが残存していると指摘する。主要システムは、画像内の物体計数、物理空間に関する推論、長時間の自動ワークフローにおける基本エラーからの回復など、比較的単純と見なされる特定のタスクで依然として失敗する。著者らはこの傾向を「ギザギザした」能力と表現し、現行汎用AIシステムの反復的特徴と位置付けている。

AI導入は急速だが極めて不均一だ。報告書によれば、人口の50％以上がAIツールを定期的に利用する国がある一方、アフリカ・アジア・ラテンアメリカの大半では導入率が10％未満と推定される。技術面での重要な知見の一つは、AIシステムの公開前に実施される安全性評価の信頼性に関するものだ。

著者らは、最先端AIモデルがテスト環境と実稼働環境で異なる挙動を示す事例が増加していることを実証している。実験室環境では、研究者が「アラインメント偽装」と呼ぶ現象が確認されている。評価時には安全要件に沿った動作を示すが、他の条件下では異なる挙動を示すのだ。関連する「サンドバッギング」と呼ばれるパターンでは、能力評価時に意図的に性能を低下させる。

報告書は、こうした挙動が実稼働前に危険な能力を見逃す可能性を直接的に指摘。著者らはこれを「評価ギャップ」の一部と位置付け、実稼働前のベンチマーク性能が実環境での挙動を確実に予測できない現状を明らかにした。要因としては、時代遅れのベンチマーク、訓練データセットからのデータ汚染、制御された評価環境での実世界の複雑なタスク再現の困難さが挙げられる。

報告書は、理論上のリスクを超えた二つの悪用カテゴリーについて詳細な知見を提供する：サイバー攻撃と兵器開発である。サイバーセキュリティ分野では、管理された研究競争においてAIエージェントが実ソフトウェアシステムの脆弱性の77％を正確に特定した事実を記載。AI企業のセキュリティ分析によれば、犯罪組織や国家関連主体が汎用AIツールを積極的に活用し、マルウェア開発・自動スキャン・インフラ悪用を含むサイバー作戦を支援している。報告書は、攻撃側と防御側の双方が同じツールから利益を得られるため、AIが最終的にどちらにより大きな利益をもたらすかは依然不透明であると指摘している。生物学的・化学的脅威に関する知見は特に示唆に富む。推論プロセスを公開した企業を含む複数の主要AI開発者は、追加の安全対策を施した上で2025年に新モデルをリリースした。いずれのケースでも、導入前のテストでは、生物兵器開発を試みる初心者にモデルが実質的な支援を提供する可能性を排除できなかった。報告書は、科学的機能を備えたAIシステムが新規タンパク質を設計可能になったこと、研究者が細菌を標的とするゲノム規模ウイルスの設計能力を実証したことを指摘。こうした手段による危害を企てる主体を物理的障壁がどの程度抑制し続けているかの評価は依然困難だと著者は述べている。

報告書は、AIシステムが詐欺、不正行為、恐喝、非同意の性的画像生成に悪用されている実態を文書化している。オンラインで特定されたディープフェイク動画の96％が非同意の性的画像であり、その大半が女性を標的としていると指摘する。

実験環境では、AI生成テキストが人間によるものと誤認される割合は77%に達した。報告書は、現実世界におけるAIの影響操作・操作作戦への利用事例は確認されているものの、能力向上に伴い増加する可能性はあるが、現時点ではまだ広範ではないと述べている。管理された研究では、AI生成の説得的コンテンツは、参加者の信念を変える点で人間が作成したコンテンツと同等の効果を示した。

本報告書は、経済・社会全体へのAIの広範な導入から生じるシステム的リスク（労働市場の混乱や人間の意思決定への脅威など）に重点的に言及している。雇用に関しては、先進国における職種の約60％が汎用AIによる認知タスクの自動化の影響を受けると推定している。初期の証拠では総雇用水準への顕著な影響は確認されていないが、執筆や翻訳などAIの影響を受ける職種では、キャリア初期の労働者に対する需要が減少していることを著者は記録している。報告書は、経済学者たちの長期的な見通しに意見の相違があることを指摘。新たな役割によって雇用喪失が相殺されると予測する者もいれば、広範な自動化が雇用と賃金を大幅に減少させると主張する者もいる。

人間の自律性に関しては、AI支援診断を長期にわたり実施した結果、臨床医の腫瘍検出能力が6%低下した研究を引用。著者はこれを「認知的オフローディング」の一例と説明し、AIツールへの依存が長期間続くと独立した分析能力が漸減する過程を指摘。また「自動化バイアス」——ユーザーがAI生成出力を十分な検証なしに受け入れる傾向——を専門職環境全体で確認されたリスクとして特定している。

現在世界で数千万のユーザーを抱えるAIコンパニオンアプリについても言及されている。報告書は、これらのユーザーの一部が長期間使用後に孤独感の増大と社会的関与の減少を示すパターンを示していると述べるが、この問題に関する全体的な証拠基盤は依然として限定的である。

本報告書は、基盤パラメータが公開されダウンロード・利用可能なオープンウェイトAIモデルに専用のセクションを設けている。著者らは、オープンウェイトモデルが特に研究者、小規模組織、資源の乏しい国々にとって、独自システムへの依存を減らし独立研究を支援する点で大きな利点を提供することを認めている。しかし、リスク管理を複雑にするいくつかの特徴を報告書は指摘している。一度公開されたオープンウェイトモデルは回収できない。第三者によって組み込まれた安全対策が解除される可能性がある。また監視環境外で運用可能なため、クローズドなAPIアクセス型システムに比べ、悪用行為の検知・追跡が困難である。報告書は具体的な規制提言を行わない方針に沿い、オープンウェイトモデルの公開の是非について賛否を示さない。ただし政策立案者による緊急の対応が必要な課題であると指摘している。

ガバナンス面では、2025年に12のAI企業が「フロンティアAI安全フレームワーク」を公表または更新した事実を報告は記録している。これらの文書は、モデルの能力向上に伴いリスクを特定・管理するための内部プロトコルを記述しており、危険な能力の評価手順や追加安全対策の発動・展開停止をトリガーする閾値の定義を含む。

報告書は、大半のAIリスク管理イニシアチブが依然として自主的な取り組みであると指摘。少数の規制管轄区域ではこうした実践の一部を法的要件として正式化しつつあるが、著者らはグローバルなリスク管理枠組みが未成熟であり、定量的ベンチマークが限定的で重大な証拠の空白が残っていると記述。報告書が「多重防御」と呼ぶ推奨されるAIリスク管理アプローチは、単一の技術的・制度的措置に依存せず、複数の安全対策を階層的に重ねることを含む。著者らは、潜在的な脆弱性を特定するための脅威モデリング、体系的な能力評価、時間をかけて証拠基盤を構築するためのインシデント報告メカニズム、そして報告書が「社会的レジリエンス」と呼ぶものへの投資を含む一連の実践を概説している。これには重要インフラの強化、AI生成コンテンツ検出ツールの開発、新たな脅威に対応するための制度的能力の構築が含まれる。

2026年報告書は、2023年11月にブレッチリー・パークで開催されたAI安全サミットを契機に開始されたシリーズの第2弾である。その後、2024年5月にソウル、2025年2月にパリでサミットが開催された。2026年版の調査結果は、インドAIインパクトサミットで発表される予定である。

本報告書の作成を指導した専門家諮問パネルには、オーストラリア、ブラジル、カナダ、チリ、中国、フランス、ドイツ、インド、インドネシア、日本、ケニア、ナイジェリア、ルワンダ、サウジアラビア、シンガポール、韓国、トルコ、ウクライナ、アラブ首長国連邦、英国、米国などからの指名者、ならびにEU、OECD、国連の代表者が参加した。

報告書委員長であるベンジオ教授は、本報告書の目的を「AI能力の進化、それに伴うリスク、およびそれらを軽減する既存技術に関する共通理解の促進」と説明した。報告書は、執筆チームが内容について完全な編集裁量権を有しており、具体的な政策提言は行っていないと述べている。

本報告書は2025年12月以前に発表された研究を対象としている。実証的根拠が依然として乏しい複数の分野を特定し、AI支援攻撃の実世界での普及状況、自動化による労働市場への長期的影響、AIコンパニオンの普及に伴う社会的影響などに関するさらなる実証研究を求めている。

出典: Bangkok Post