Claude Opus 4.7がNMR予測でChemDrawとMestReNovaに並ぶ — 化学領域第1報
Anthropicが2026年6月5日に公開した化学領域の最初の取り組み。Opus 4.7をChemDrawとMestReNovaに対しNMR予測と構造解明で比較し、汎用モデルが専用ソフトに肩を並べた測定結果を読み解きます。
Anthropicは2026年6月5日、「Making Claude a chemist」と題したリサーチ投稿を公開しました。合成化学・計算化学・分析化学の専門家と組んでClaudeの化学能力を底上げするプログラムの第一弾で、社内化学者のDavid Kamber氏が中心となり、化学者が日常的に扱う最大の解析入力であるNMR(核磁気共鳴)スペクトルでClaudeがどこまで戦えるかを測ったホワイトペーパーが添えられています。
注目すべきは、化学特化のファインチューニングを行っていない汎用モデルのClaude Opus 4.7が、化学者が長年使ってきた専用ソフトのChemDrawとMestReNovaと並ぶか、項目によっては上回ったという結果が出た点です。これは、汎用フロンティアモデルが実験科学のワークフロー内側に入り始めた示唆として読めます。同じく科学領域へAnthropicが踏み込んだ動きであるAnthropic Instituteの研究アジェンダ4本柱や、コーディングと並ぶ「専門能力」軸として位置付けられるOpus 4.7一般提供開始の発表とあわせて読むと、Anthropicが「Claudeを各分野の専門家にする」方向にどう投資しているかが立体的に見えてきます。
要点 — 化学者向けNMRタスクでOpus 4.7が示した3つの事実
このリサーチ投稿とホワイトペーパーが提示したポイントを、化学者と非化学者の双方が判断に使える粒度で押さえます。
- 順方向のNMRピーク予測でOpus 4.7が専用ソフトと同等以上 — ¹H(プロトン)NMRでは平均誤差±0.079ppmと、化学者の許容窓(±0.20ppm)の半分未満。¹³CではOpus 4.7とMestReNovaがほぼ並ぶ結果になりました。
- 逆方向の構造解明(structure elucidation)も1D NMRで成立 — 通常は2D NMRと専用ソフトが必要な逆問題を、Opus 4.7は1Dスペクトルと高分解能の質量分析(HRMS)による分子式だけで解いています。簡単な8問は3回中3回正解、難しい7問も出発物質ヒント付きで多くを当てました。
- ピークの形と間隔(splitting pattern)で汎用モデルが大差で勝ち越し — サブピーク間隔を0.5Hz以内に当てた割合がClaude 3モデルともに約80%。一方でChemDraw / MestReNovaは26〜35%にとどまり、構造情報を含むピーク形状ではむしろ汎用モデル側が強い面がありました。
全体メッセージは、「専用ツールに任せていた領域に、汎用モデルがプラスαの強みを持ち込みつつある」という事実報告です。Anthropic自身もこの主張をmodest(控えめ)と表現しており、化学者の判断を置き換えるのではなく、翻訳・想起・統合といった補助作業から先に効くと整理しています。
背景 — なぜ化学はAIにとって長らく「お預け」だったのか
化学者の仕事は、ホワイトボードの手書き構造、計測器の出力、データベースのクエリ文字列、特許や論文の記法といった複数の表現の間を行き来する作業に支えられています。同じ化学を別の表現に翻訳するこの往復は、規模が大きくなると人手では追い切れません。代表例として記事は、世界最大の化学レジストリであるCASに登録された物質が2億9000万件を超え、毎日約1万5000件のペースで増えていると挙げています。
AIへの期待は長らく逆合成解析(retrosynthesis、ターゲット分子から出発材料へ逆向きにたどる工程設計)や反応予測、物性推定に寄せられてきました。しかしこの分野のデータは陰性結果(うまくいかなかった反応)が極端に少なく、フォーマットも不揃いで、購読制ジャーナルや非構造化な補足情報の中に閉じこもっていました。結果として、逆合成解析の専用ツールは存在するのに、ふつうのアカデミック化学者や小規模ラボの化学者には浸透していないという状態が続いてきました。
ここで変化を起こしたのが、現行フロンティアモデルが備えるマルチモーダルと明示的推論です。論文の図や手書きスケッチから化学構造をそのまま読める、論文の方法欄や補足情報を出版形式のまま読める、推論ステップを開示するので化学者が監査できる。データの欠落を魔法のように解決はしませんが、「データ欠落を抱えたままどの問題が現実的に解けるか」の境界は確実に動いた、という整理になっています。
検証の設計 — 20化合物・3モデル・2本のソフト
Anthropicがホワイトペーパーで行った比較は、対象・モデル・タスクをきちんと固定した上で順方向と逆方向の両方向を測った点に特徴があります。
| 観点 | 内容 |
|---|---|
| Claude側のモデル | 内容Opus 4.7 / Opus 4.6 / Sonnet 4.6の3種 |
| 比較対象ソフト | 内容ChemDraw / MestReNova |
| 順方向タスク(forward) | 内容構造から¹H / ¹³C NMRスペクトルを予測 |
| 逆方向タスク(inverse) | 内容NMRスペクトル + 分子式から構造を提案 |
| 化合物の出所 | 内容ChemRxivに掲載された4本のプレプリント |
| 化合物数 | 内容順方向20件(4スキャフォールド × 5化合物)、逆方向15件 |
| トレーニングデータ汚染対策 | 内容各モデルの学習カットオフ後に公開された論文のみ採用 |
化合物は4つのスキャフォールド系統(構造骨格の分類)に均等に振り分けられており、それぞれがNMR上で異なる難しさを抱えています。具体的には(P1)DMSO-d₆中でゆっくり交換するNHを持つクロロピリダジン類、(P2)Boc-N-arylマレイミドとN-Boc ynamide(α-vinyl-imideカルボニルやynamide特有の炭素対を含む)、(P3)フェナシルやアセチル側鎖を持つスピロ二環ケトン(ジアステレオトピックなCH₂を含む)、(P4)α-シリル基で遮蔽されたメタンスルホンアミドの4系統です。
入力は化学者がソフトに分子を渡すときに使うSMILES(line-of-text notation、構造を1行の文字列で表す記法)で統一されています。NMRサンプルは液体に溶かして測るため、ピーク位置が溶媒で微妙にずれます。今回はchloroformやDMSOといった論文と同じ溶媒を予測条件として与えています。
各Claudeモデルは1化合物につき3回クエリして平均し、ChemDrawとMestReNovaは決定論的に同じ答えを返すため1回実行。予測ピークと実測ピークをペアにし、ppm単位の差を化学者が「許容内」と判断する窓(¹Hで±0.20ppm、¹³Cで±1.0ppm)と照らし合わせる、という設計です。
順方向の結果 — Opus 4.7が¹Hでトップ、¹³CでMestReNovaと同点
順方向タスクの主要な数値はホワイトペーパーから次の通りに読み取れます。
| 指標 | Opus 4.7 | Opus 4.6 | Sonnet 4.6 | ChemDraw / MestReNova |
|---|---|---|---|---|
| ¹H平均誤差(MAE) | Opus 4.7±0.079ppm | Opus 4.6中位 | Sonnet 4.6最下位 | ChemDraw / MestReNovaOpus 4.7に劣後 |
| ¹H許容窓内に収まる割合 | Opus 4.7最高 | Opus 4.6中位 | Sonnet 4.6最下位 | ChemDraw / MestReNovaOpus 4.7に劣後 |
| ¹³C平均誤差(MAE) | Opus 4.7±1.37ppm | Opus 4.6— | Sonnet 4.6— | ChemDraw / MestReNovaMestReNova ±1.48ppm |
| サブピーク間隔を0.5Hz以内で当てた割合 | Opus 4.7約80% | Opus 4.6約80% | Sonnet 4.6約80% | ChemDraw / MestReNova26〜35% |
| 再現性(3回試行の振れ幅) | Opus 4.7最も狭い | Opus 4.6— | Sonnet 4.6— | ChemDraw / MestReNova単一値(再現性概念なし) |
¹Hではアベレージ誤差0.079ppmという数値は、化学者が「合っている」と判断する±0.20ppm窓のおよそ4割という小ささです。¹³CではOpus 4.7とMestReNovaがほぼ同点に並び、両者は他の3者(ChemDraw含む)を上回る順位を保ちました。Opus 4.6は中位、Sonnet 4.6が最も弱い、という素直な階段になっています。
モデル間の差が最も鮮明に出たのは、クロロピリダジン族の難所として知られるNH(窒素プロトン)1点でした。実測位置は6.8〜7.9ppmの狭い帯にあります。Opus 4.7はやや低めに置きつつも一貫しており、Opus 4.6は数ppm単位でばらつき、Sonnet 4.6は10〜13ppmという大きく外れた位置に置いてしまいました。難所NHの扱いはモデル世代ごとの能力差を測る目盛りとして機能していると言えます。
ピーク位置だけでなくピークの形(splitting pattern)とサブピーク間隔も化学者が構造を読み取る重要な手掛かりですが、ここはClaude勢の優位が大きく出ました。Opus 4.7はsplitting patternが実測と一致した頻度で全ツール中最多。3モデルとも約80%のケースでサブピーク間隔を0.5Hz以内で当てたのに対し、ChemDraw / MestReNovaは26〜35%にとどまります。Opus 4.7の3回試行の振れ幅は、Opus 4.7と次点ツールの差より狭く、再現性の意味でも安定していました。
逆方向の結果 — 1D NMRだけで構造解明が成立した
順方向に続く逆方向タスク(structure elucidation)は、NMRから構造を当てるという、これまで化学者が手と経験で詰める領域でした。専用の構造解明ソフトは存在するものの、通常は2D NMR(2軸の等高線マップ)、専門訓練、ライセンス料を前提とします。
Anthropicはここで15問の逆方向問題をOpus 4.7に与え、各問題3回ずつ最大3候補を提案させました。入力は高分解能の質量分析(HRMS)から得た分子式と¹H / ¹³C NMRのスペクトルだけ。15問は難易度で2つに分かれており、簡単側の8問(単環または2フラグメントの分子)は分子式とスペクトルのみで、難しい側の7問(縮環、スピロ環など)は出発物質の構造を1つだけヒントに加える、という設計です。
| 区分 | 化合物の特徴 | 与えた情報 | 結果 |
|---|---|---|---|
| 簡単側 | 化合物の特徴単環または2フラグメント分子8件 | 与えた情報分子式 + ¹H / ¹³C NMRスペクトル | 結果3回中3回正解(全8件) |
| 難しい側 | 化合物の特徴縮環・スピロ環など7件 | 与えた情報上記 + 出発物質SMILES | 結果4件は3回中3回正解、残りは3回中2回正解 |
簡単側8問は全問で3回連続正解。難しい側7問のうち4問は3回連続正解、残りも3回中2回は正解しました。1D NMRだけで構造解明が当たるのは、専用ソフトが歴史的に2D NMRに依存してきたことを思うと、ワークフローの前提を1段下げる事例として読めます。化学者がチャットに高分解能の質量分析結果と1Dピーク表を貼るだけで動くという入力の軽さは、現場の運用障壁を下げる方向に効くと考えられます。
ただし難しい逆問題では出発物質をヒントとして与えた点は、結果を読むときに見落とせない条件です。これがないと、モデルは推論を回したまま最終構造に踏み切れないループに入ることがあった、と論文側は明言しています。逆方向タスクの「素手の強さ」はもう一段検証が必要な領域です。
既存ソフトとの位置付け — Claudeはどこに刺さるか
化学者が実務で使うNMRソフトのスコープと、Opus 4.7のスコープを並べて整理すると、今回の結果がどこに刺さるかが立体的に見えてきます。
| 軸 | ChemDraw / MestReNova | Opus 4.7(汎用モデル) |
|---|---|---|
| 主用途 | ChemDraw / MestReNova構造描画 + 順方向NMR予測の決定論的ツール | Opus 4.7(汎用モデル)自然言語入力で順方向 + 逆方向の両方に応答 |
| 入力形式 | ChemDraw / MestReNova構造描画 / SMILES | Opus 4.7(汎用モデル)SMILES / 分子式 / ピーク表 / 図(マルチモーダル) |
| 出力の説明性 | ChemDraw / MestReNova数値のみ | Opus 4.7(汎用モデル)推論ステップを開示し化学者が監査可能 |
| 2D NMR要求 | ChemDraw / MestReNova構造解明は2D前提 | Opus 4.7(汎用モデル)1Dと分子式のみで簡単側は満点 |
| 再現性 | ChemDraw / MestReNova決定論的(同じ入力で同じ出力) | Opus 4.7(汎用モデル)3回試行のばらつきは小だが0ではない |
| 導入コスト | ChemDraw / MestReNova商用ライセンス + 専門訓練 | Opus 4.7(汎用モデル)チャット画面に貼るだけ |
専用ソフトの強みである決定論的挙動と、汎用モデルの強みであるマルチモーダル入力 / 自然言語による条件指定 / 推論開示は、それぞれ別軸の価値です。今回の結果は、Claudeが既存ソフトを置き換えにかかったというより、「同じ精度を別の入力経路で出せるようになった」と読むのが妥当だと考えられます。
結果の読み方 — 「modest」と明言された限界
Anthropic自身がこの主張は控えめ(modest)だと述べているとおり、論文側はホワイトペーパーで複数の限界を明示しています。化学者でも非化学者でも、結果を解釈するときに踏まえたい論点が次のとおりです。
| 限界 | 内容 |
|---|---|
| サンプルサイズが小さい | 内容順方向20件・逆方向15件で、スキャフォールド1系統あたり1種類の失敗様式しか観測できない |
| 逆問題はヒント前提 | 内容難しい7問は出発物質SMILESありが条件。素のスペクトルのみだと最終構造に落ち切らない場合がある |
| 未検証スキャフォールド | 内容緩慢交換NHを持つ系統はクロロピリダジンのみ。ヒドロキシピリジンやアミノチアゾールなど近縁系は未検証 |
| 2D実験は範囲外 | 内容COSY / HSQC / HMBCと立体化学は設計上対象外。複雑な天然物は未検証 |
| 溶媒は3種に限定 | 内容DMSO-d₆ / CDCl₃ / D₂Oのみで、methanol-d₄ / benzene-d₆ / acetone-d₆は未評価 |
論文は理想的な追試として「数百化合物・20〜30スキャフォールド・各クラス15化合物以上」「NH活性ヘテロ芳香環の系統的拡張」「未検証溶媒の追加」「2D実験を使った両タスクのバージョン」を挙げています。今回の数値は「方向性は確かに動いているが、現場運用の精度保証としてはこれから」というスタンスで読むのが正確だと考えられます。
今後のロードマップ — Anthropicが定義した4つのボトルネック
Anthropicは化学領域の継続開発で取り組む対象を、化学者の時間を最も食っている4つのボトルネックとして提示しています。それぞれ成熟度が違い、NMRのようにベンチマーク可能な段階まで進んだものもあれば、まだスコープを切っている段階のものもあります。
| ボトルネック | 内容 | 成熟度 |
|---|---|---|
| 構造の読み書き | 内容図 / 特許 / スライド / スケッチからの構造を機械可読化、構造と化学命名法の往復 | 成熟度一部進んでいる |
| 反応と合成推論 | 内容合成ルートの提案・評価・批評、選択性 / 条件 / 副生成物の予測 | 成熟度成熟途上 |
| 反応機構 | 内容電子の矢印 / 中間体 / 遷移状態を使った機構説明と検証 | 成熟度開発中 |
| 化学文献の理解 | 内容同じ分子が描画・命名・略号・コードで指される論文表現の中から、本文・方法・補足情報・特許の重要点を抽出 | 成熟度進展中 |
NMR(スペクトル解析)はベンチマーク可能な段階まで進んだ最初のテーマであり、retrosynthesisのような難所は今もスコープを切っている段階です。今後Anthropicは、現行モデルがどこで強くどこで弱いかを継続的に開示する方針だと述べています。
フロンティアモデルが「分野の専門家」を兼ね始めたと読める3つの兆し
このリサーチ投稿が興味深いのは、Anthropicが汎用フロンティアモデルの能力評価軸を、コーディングや一般推論から「自然科学の実務」側へ伸ばしてきた点だと読めます。同社はすでにTrustworthy Agents in Practiceでエージェントとしての信頼性軸を、Opus 4.7発表でコーディングとビジョンの底上げを、そして本投稿でNMR解析を軸に化学領域を、と段階的に対象領域を広げています。
注目点は2つあります。1つはOpus 4.7がchemistry特化のファインチューニングを受けていない汎用モデルである、という事実。マルチモーダル + 明示推論が、ドメイン特化チューニングなしでも特定の分析タスクで専用ソフトに並ぶ水準に来た、と整理できます。もう1つはAnthropicが「AI for Science」プログラムを化学領域へ拡張すると明言し、scienceblog@anthropic.comまたは専用申し込み窓口を通じて研究者の参加を呼びかけている点です。コミュニティ側の検証データが入る経路を作ろうとしている、と読めます。
なお、本投稿は化学者の判断を置き換える話ではなく、「化学者の専門判断と並走する補助作業を底上げする」というスタンスを繰り返し強調しています。NMRピークの解釈を最終的に行うのは依然として化学者であり、汎用モデルが効くのは翻訳・想起・統合という補助層からだ、というメッセージは控えめで現場感のある整理だと考えられます。
まとめ — 誰がいま読むと価値があるか
- 合成化学・分析化学に関わる研究者 — NMR予測タスクで汎用モデルが専用ソフトと同水準まで来た事実を、限界(サンプルサイズ・2D未検証・溶媒3種限定)と合わせて押さえるのに役立ちます。ChemDraw / MestReNovaの置き換えではなく補助層の追加と捉える整理を持ち帰ることができます。
- AI for Scienceや科学ワークフロー設計に関心がある方 — 汎用フロンティアモデルがどの領域から実験科学の内側に入っていくかの事例として読めます。Anthropicが「翻訳・想起・統合」を最初の入り口に置く判断は、他分野への類推にも使えます。
- Claudeのモデル世代差を実用文脈で確認したい方 — Opus 4.7 / Opus 4.6 / Sonnet 4.6の3者を同じ難問(クロロピリダジン族NH)で比較した結果が掲載されており、世代差を業務文脈で見るベンチマークとして参照できます。
- AnthropicがAI for Scienceプログラムでどう動くかを追っている方 — 化学領域への明示的な拡張と、
scienceblog@anthropic.comでの研究者募集が公表されており、今後の続報を追う出発点になります。
関連する記事
Anthropic をもっと見る →Claude商用利用の可否・生成物の権利・データ学習のオプトアウトをプラン別に確認する
Anthropicとは — Claude開発元の企業概要・経営陣・資金調達・日本展開
Anthropicが語る「Claudeを封じ込める」3パターン — サンドボックスとVMの隔離設計
Anthropicのマルチエージェント研究システム — Claude Researchを支える分業設計と9割向上の内訳
Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身
Anthropic 2026年春の3本柱 — Opus 4.7・Cowork GA・Claude Design