Teaching Claude why — Anthropicが「行動」より「理由」を教えるアラインメント訓練の中身
Opus 4で最大96%だったblackmailを、constitution文書とdifficult adviceデータセットでHaiku 4.5以降ほぼ0に下げたAnthropicのアラインメント訓練更新を読み解きます
カテゴリ
31件の記事
仕様の掘り下げ・他ツールとの比較・使い分け
Opus 4で最大96%だったblackmailを、constitution文書とdifficult adviceデータセットでHaiku 4.5以降ほぼ0に下げたAnthropicのアラインメント訓練更新を読み解きます
2026年4月のOpus 4.7・Cowork GA・Claude Designの3連リリースを並べて読むと、Anthropicが「モデルを作る会社」から「プロダクトを束ねる会社」に軸足を移したのが見えてきます。3本柱の役割分担と、エンジニア / ビジネスユーザーへの含意を整理します。
AnthropicがTAI(The Anthropic Institute)の研究アジェンダを公開しました。4つの焦点(経済浸透・脅威と回復力・実環境のAI・AIによるR&D加速)が、フロンティアラボの内側から何を観測しようとしているのかを整理します。
AnthropicがClaudeの内部活性化(activation)を自然言語テキストに翻訳するNLA(Natural Language Autoencoder)を公開。Opus 4.6・Mythos Previewの安全性監査で実利用された数値と、誤りやすさの両面を整理します。
Anthropicが公開したClaude品質低下の事後検証を日本語で読み解きます。推論努力の既定値、キャッシュ最適化、プロンプト圧縮の3つが重なった経緯と、再発防止策の中身を整理します。
公式アナウンス解説
AnthropicがClaude向け金融業務エージェント10種を公開。Excel/PowerPoint/Word連携、KYCや月次決算の自動化、Citadel・BNY・Mizuho等が採用。規制業界向けのガバナンス機能も同時に整備されました。
AnthropicがBlackstone・Hellman & Friedman・Goldman Sachsとともに、中堅企業向けにClaude導入を支援する新会社を設立。Apollo・Sequoia等もコンソーシアム支援に名を連ねる大型エンタープライズ案件です。
Anthropicが2026年4月24日に選挙セーフガードの更新を発表。米国中間選挙とブラジル選挙に向け、Claude.aiの投票案内バナー、政治的偏見と影響工作対策の評価指標、Democracy Worksなどとの連携を公開しました。
AnthropicとNECが提携し、NECグループ約3万人にClaudeを展開。NECはAnthropic初の日本拠点グローバルパートナーとして、日本最大級のAIネイティブエンジニアリング体制を構築します。
Anthropicが2026年4月20日にAmazonとの計算容量拡張を発表。10年で最大5GW、AWS Trainium2/3を中心に1,000億ドル超を投じ、年内にTrainium2/3で1GW近くを稼働させる計画です。