Petriをオープンソース寄贈 — AnthropicがアラインメントツールをMeridian Labsに渡す理由
AnthropicがアラインメントツールPetriをMeridian Labsへ寄贈。Auditor / Target / Judgeの3エージェント構成で欺瞞・迎合・有害要求への協力を検査する仕組みと、独立非営利に渡す意義を読み解きます。
Anthropicは2026年5月7日、自社のオープンソース・アラインメントツールPetriを、AI評価専門の非営利団体Meridian Labsに寄贈したと発表しました。Petriは任意の大規模言語モデルに対し、欺瞞(deception)、迎合(sycophancy)、有害要求への協力といった懸念される傾向を検査するためのテスト基盤で、すでにClaude Sonnet 4.5以降のモデル評価で活用されてきたツールです。
寄贈の狙いは、Petriを「特定のAIラボから独立した」ツールにすることで、評価結果を中立的かつ信頼できるものとして社会に受け入れてもらうことにあります。Anthropic自身がモデルを作る側である以上、そのモデルを評価するツールを自社で抱え続けると、結果に利益相反の疑いが残ります。同社は2025年にModel Context Protocol(MCP)をLinux Foundationに寄贈した手法を、ここでも踏襲したかたちです。
同時期に出ているTeaching Claude whyのアラインメント訓練解説、Natural Language Autoencodersの解釈可能性研究、Anthropic Institute研究アジェンダとあわせて読むと、Anthropicがいまアラインメントの「訓練」「観測」「外部評価」の3層をどう手当てしているかが見えてきます。本記事はそのうち「外部評価」に位置するPetri寄贈の意味を、開発者・ビジネスユーザーが業務判断に使える粒度で読み解きます。
要点 — Petri寄贈で何が変わるか
Anthropicの今回の発表で変わるのは次の4点です。
- Petriの運営主体がAnthropicからMeridian Labsへ移管 — AIラボから独立した非営利が今後の更新と運用を担います。
- Petri 3.0として機能改良 — auditorとtarget modelを分離可能にし、評価対象モデルの差し替えが容易になりました。
- 「Dish」アドオンで現実性が向上 — 実運用に近いシステムプロンプトとscaffold(足場)を用意し、評価環境を本番に寄せています。
- Bloomとの統合で深堀り評価が可能に — 別の評価ツールとつなぐことで、行動の評価が単発の検出から多面的な分析に広がります。
要するに「Petriは引き続き発展するが、所有者はAnthropicではなくなる」「機能も評価対象の柔軟性と現実性が増す」というのが今回の輪郭です。
Petriとは何か — 3つのエージェントでモデルの内面をテストする
Petriは、Anthropicが「open-source toolbox of alignment tests」と呼ぶツールセットで、特定のモデルに依存せず、任意の大規模言語モデルに対して同じ評価を当てられる設計になっています。検査対象として明示されているのは次の3つの懸念行動です。
- 欺瞞(deception) — 内心とは違う発言で相手を誤認させる
- 迎合(sycophancy) — ユーザーに同意しすぎて批判的判断を放棄する
- 有害要求への協力(cooperation with harmful requests) — 拒むべき要求にうっかり乗ってしまう
これらは、いずれも単純な「禁則ワードを返したか」では検出できません。文脈を持ったやりとりの中で、モデルが「どう振る舞うか」をシナリオとして観測する必要があります。Petriはそのシナリオを自動生成し、対象モデルに当てて、結果を採点する一連の作業を3つのエージェントに分担させています。
3エージェント構成
| 役割 | 機能 |
|---|---|
| Auditor model | アラインメントに関わるシナリオを動的にシミュレートする(攻撃側 / 環境側) |
| Target model | 実際に評価される対象モデル(任意のLLMを差し込める) |
| Judge model | やりとりのtranscriptを採点し、misaligned behaviorを判定する |
この3者を分けることで、攻撃手法と採点ロジックを評価対象モデルから独立して扱える、というのが設計の核です。同じターゲットに異なるauditor / judge構成を当てたり、auditorだけ強化して攻撃強度を変えたりできます。Petri 3.0ではこのauditorとtargetの分離度合いがさらに高められ、コンポーネント差し替えが容易になりました。
検証されてきた使い方
公式は具体的な内部評価例こそ詳しく開示していませんが、活用先として以下が明示されています。
- AnthropicがClaude Sonnet 4.5以降の全モデルでアラインメント評価に使用
- 英国のAI Security Institute(AISI)が、モデルの「AI研究を妨害する傾向(propensity to sabotage AI research)」の評価でPetriを主要パートに据えた
外部の独立評価機関が同じツールで主要評価を組めているということは、Petriが「Anthropic内部だけで通じる物差し」ではなく、第三者にとっても運用可能な評価インフラとして機能している証拠です。
Petri 3.0で変わったこと — Adaptability / Realism / Depth
Anthropicは今回の寄贈と同時に、Petri 3.0としての機能改良を提示しています。改良の方向性は「適応性」「現実性」「深さ」の3軸です。
1. Adaptability(適応性) — 評価対象を差し替えやすくする
旧版では、auditorとtargetが密結合になっていた箇所がありました。Petri 3.0ではこの2者を分離し、target側を別ベンダのモデルに差し替えやすくしています。これにより、AISIのような第三者機関がPetriを基盤として独自評価を組み立てやすくなります。
2. Realism(現実性) — 「Dish」で本番環境に寄せる
評価シナリオが現実から離れすぎていると、検出された行動が「実運用では起きないテスト用の挙動」になりかねません。Petri 3.0は「Dish」と呼ばれるアドオンを導入し、評価時のシステムプロンプトと周辺のscaffold(エージェントを動かす足場)を本番に近づけました。実環境で使われるpromptフォーマットやツール定義に揃えることで、評価結果と実運用挙動のギャップを縮める設計です。
3. Depth(深さ) — Bloomとの統合で多面的に観測する
Petriは行動を検出するツールですが、その行動が「なぜ起きたか」を深掘りする機能は限定的でした。Petri 3.0は別の評価ツールであるBloomと統合され、検出された挙動を多面的に解析できる構成になっています。単発の検知から、複数指標を組み合わせた挙動評価へと一歩進んだかたちです。
なぜMeridian Labsに寄贈するのか — 「独立性」の構造的な意味
Anthropicが繰り返し述べているのは、Petriが「AIラボから独立している」ことで初めて中立的・信頼できるツールになる、という点です。これは単なる体面の話ではなく、評価インフラの構造的な要請です。
| 問題 | Anthropic保有のまま | Meridian Labsへの寄贈後 |
|---|---|---|
| 利益相反 | 自社モデルが有利になる評価設計の疑いが残る | 中立な非営利が運用するため疑いが構造的に解消 |
| 他社モデルへの適用 | 「AnthropicのためのツールではないのにAnthropicが運営」という違和感 | 評価対象を選ばない基盤として立ち位置が明確になる |
| 第三者の引用 | AISIなど政策当局が結果を引用しにくい | 独立団体が運営する標準ツールとして引用しやすい |
Meridian Labsは「AI evaluation nonprofit」と紹介されており、評価ツール群の運営に特化した非営利団体です。同団体は今回のPetri受け入れに加え、InspectやScoutといった他の評価ツールも運営している組織で、Bloomとの統合もこの運営体制の中で進められています。
Anthropicはこの寄贈モデルを過去にも実践しています。2025年に同社が主導していたModel Context Protocol(MCP)を、より中立的な運営体制を確保するためにLinux Foundationへ寄贈したのが直接の先例です。プロトコルやツールの主導権を、ある段階で第三者組織に渡すことで「業界標準」としての地位を確立する戦略は、オープンソース・ガバナンスでは古典的な手法です。
寄贈で何が読者にとって変わるのか
開発者・技術リーダー視点で、今回の発表が実務に与える変化を3つ挙げます。
自社モデル評価でPetriを使う動機が増す
Petriが特定ベンダ製のツールではなくなることで、自社のLLM運用に組み込む際の心理的・組織的なハードルが下がります。これまで「Anthropic製のツールでOpenAIモデルやオープンウェイトモデルを評価するのは座りが悪い」と感じていたチームでも、Meridian Labs運営の中立ツールという位置付けなら採用判断がしやすくなります。
政策・規制側の引用先になりやすい
英国AISIがすでにPetriを評価方法論に組み込んでいる事実は、Petriが「政策当局が引用できる中立ツール」として機能し始めていることを示します。AI規制が具体化する局面で、第三者が引用できる標準ツールがあるかどうかは、企業のリスクコミュニケーションに直結します。
Bloomなど隣接ツールとセットで評価設計を組める
Petri 3.0がBloomと統合された点は、評価設計を「単発の検知」から「多指標の挙動評価」へ広げる土台になります。これは、安全性監査をプロダクトサイクルに組み込むチームにとって、設計の幅が広がる変化です。
Petri寄贈は「評価インフラの非営利化」の流れに乗っている
今回の寄贈は、Anthropic単独の動きというより、AI業界全体で進む「評価インフラを中立な非営利に切り出す」流れの一つと読むことができそうです。
- 2025年: AnthropicがMCPをLinux Foundationに寄贈
- 2025〜2026年: AISIなど政府系評価機関が独立した評価基盤を整備
- 2026年5月: AnthropicがPetriをMeridian Labsに寄贈
AnthropicのAnthropic Institute研究アジェンダで示された「内側からの観測者として社会に観測結果を出す」という方針とあわせて読むと、同社は「自社で観測し続けるもの(Institute)」と「外部に渡して標準化するもの(MCPやPetri)」を意図的に分けているように見えます。研究の起点はAnthropic、運営の到達点は中立団体という二段構えです。
Anthropic内部のアラインメント取り組みとしては、Teaching Claude whyで「行動」より「理由」を教える訓練設計が公開され、Natural Language Autoencodersで内部活性化を自然言語で読み出す解釈手法が示されています。Petriはこれらと役割が異なり、訓練後のモデルが外側から見てどう振る舞うかをテストする外部評価の基盤に位置します。3者は補完関係にあり、「訓練 → 解釈 → 外部評価」の三層で安全性を点検する構図と読めそうです。
まとめ — どんなチームが今、Petriに関わると効くか
Petri寄贈で押さえておきたい点は次のとおりです。
- Petriはモデル横断のアラインメント評価ツールで、auditor / target / judgeの3エージェント構成で欺瞞・迎合・有害要求への協力を検査します。
- 運営主体がAnthropicからMeridian Labsへ移管され、独立した非営利が今後の更新を担います。
- Petri 3.0でauditor / target分離・Dishによる現実性向上・Bloom統合による深堀り評価の3点が強化されました。
- AISIがすでにモデルの妨害傾向評価で利用しており、政策当局からも引用される基盤になりつつあります。
自社でLLMを運用しているチームのうち、安全性監査をプロダクトサイクルに組み込みたい場合は、Meridian Labsが公開している運用情報を起点に評価設計の選択肢を増やすタイミングです。AnthropicモデルだけでなくOpenAI / Google / オープンウェイトのモデルを同じ物差しで測りたいケースでも、ベンダ独立の評価ツールとしてPetriが選択肢に入ります。
評価ツールの所有権を中立な非営利に渡すという判断は、自社の評価結果を社会に信頼してもらうために必要な構造的コスト、とAnthropicが理解していることの表れと言えそうです。
関連する記事
Anthropic をもっと見る →Anthropic Natural Language Autoencoders — Claudeの活性化を自然言語で読む
Constitutional Classifiers — Claudeのjailbreakを95%防ぐ仕組み
Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身
Anthropic Research:Automated Alignment Researchersの核心
Project Vend 2 — Claude Sonnet 4.5に自販機ビジネスを任せたら何が改善し、何が残ったか
Anthropic 2026年春の3本柱 — Opus 4.7・Cowork GA・Claude Design
Claude personal guidance研究 — 9領域とsycophancyの実態
AnthropicのApril 23 Postmortem — Claude品質低下を3つの独立バグから読み解く