Anthropic API完全ガイド2026 — モデル / 料金 / Tool use / Prompt cachingまで網羅

Anthropic APIはClaudeモデル(Opus / Sonnet / Haiku)に直接アクセスする公式APIです。Claude.ai(Web UI)やClaude Code(CLI)が裏で使っているのと同じAPIを、開発者が自分のアプリケーションから呼び出してLLMを統合できます。

本記事はAnthropic APIの全体像と、Agent SDKまでを含めた構成要素を1本で把握できるPillarガイドです。モデル選択 / 料金 / リクエスト構造 / Tool use / Prompt caching / Extended Thinking / Batch / Files / Citations / Memory Tool / SDK / Agent SDK / レート制限 / マルチクラウド展開を網羅します。

Anthropic APIとは

Anthropic APIはHTTPS / JSONベースのREST APIです。エンドポイントは https://api.anthropic.com で、Messages API(POST /v1/messages)が中核です。リクエストにモデル名 / メッセージ列 / システムプロンプト / ツール定義を渡すと、Claudeが応答を返します。

Claude.ai(Claude)のチャットUIと異なり、Anthropic APIは次のような特徴を持ちます。

開発者の自前アプリケーションから直接呼べる(SDK / curl / 任意のHTTPクライアント)
Pay-as-you-go(従量課金)でinput / outputトークン単位の料金体系
Tool use(Function calling)・Streaming・Prompt caching・Extended Thinking・Batch・Visionなど、Claude.aiでは使えない開発向け機能を提供
レート制限がTier制(1〜4)で、利用実績に応じて自動引き上げ

Claude Code・Cowork・Claude Designも内部でAnthropic APIを使っており、これらは「APIの上に乗ったアプリケーション層」です。本記事はAPIそのもの(基盤層)を扱います。

モデル選択 — Opus / Sonnet / Haikuの使い分け

Anthropic APIでは現時点で3系統のモデルが提供されています。各モデルは「知能の深さ」「速度」「コスト」のトレードオフが異なります。

モデル	強み	主用途	相対コスト
Claude Opus 4.7	最高水準の推論深度、Extended Thinking対応	重い思考・複雑な独自視点・コードレビュー・研究	高(input $15 / output $75 per 1M tokens程度)
Claude Sonnet 4.6	速度と品質のバランス、汎用最強	標準的な執筆 / 調査 / 製品統合	中(input $3 / output $15 per 1M tokens程度)
Claude Haiku 4.5	高速 + 安価、構造的タスクで精度を保つ	抽出 / 採点 / 速報処理 / 軽量バッチ	低(input $0.80 / output $4 per 1M tokens程度)

選び方の原則は次のとおりです。

判断軸が複雑 / 独自性が必要 → Opus:採点 / レビュー / 戦略立案のような深い推論。Extended Thinkingで更に精度を上げられる
汎用的な作業 → Sonnet:大半のユースケースはSonnetで十分。コスト感も実用範囲
明確な判定基準 / 抽出系 → Haiku:既知パターンの分類、JSON抽出、ログ要約、リアルタイム応答が必要なチャット

詳細なモデル比較はClaude Opus vs Sonnet vs Haiku使い分けを参照してください。

料金体系

Anthropic APIはPay-as-you-goの従量課金で、input / outputトークンごとに価格が設定されています。料金は公式(anthropic.com/pricing)に最新が掲載されているため、本記事では「料金の構造」を扱います。

課金軸	説明
input tokens	リクエストでモデルに送ったメッセージ / システムプロンプト / ツール定義のトークン数
output tokens	モデルが生成して返したテキストのトークン数。生成量に応じて課金
cache write	Prompt cachingで書き込んだトークン数(inputの1.25x程度)
cache read	キャッシュから読んだトークン数(inputの0.10x = 90% 割引)
Batch	バッチAPI経由のリクエストは全体50% 割引

実運用のコスト最適化では、次の3つを組合せると累計コストを大きく下げられます。

Prompt caching:システムプロンプト + ツール定義 + RAGコンテキストをキャッシュ化(後述)
モデルルーティング:重い思考はOpus、軽量タスクはHaikuに振り分ける
Batch API:即時性が不要なバルク処理はBatchで50% 割引

詳細な料金シミュレーションはAnthropic API料金深掘りを参照してください(料金プラン別の構造解説と典型ワークロードの試算)。

リクエスト構造(Messages API)

最小のAnthropic APIリクエストは次の形です。

curl https://api.anthropic.com/v1/messages \
  --header "x-api-key: $ANTHROPIC_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-opus-4-7",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "こんにちは"}
    ]
  }'

主要パラメータの意味は次のとおりです。

パラメータ	役割	必須
`model`	使うモデルID(`claude-opus-4-7` / `claude-sonnet-4-6` / `claude-haiku-4-5-20251001` 等)	✓
`max_tokens`	出力トークンの上限。モデル別のmaxを超えない範囲で指定	✓
`messages`	会話履歴の配列。`role: "user"` / `"assistant"` で対話を構成	✓
`system`	システムプロンプト。モデルの振る舞いを定義する常駐文	—
`tools`	Tool use定義(後述)	—
`temperature`	出力の確率分布制御(0.0〜1.0)。低いほど一貫性、高いほど多様性	—
`stream`	trueでSSEストリーミング応答	—
`thinking`	Extended Thinking設定(Opusのみ、後述)	—

レスポンスは content フィールドにメッセージブロックの配列が返ります。Tool useやExtended Thinkingが有効な場合、複数のblock(type: "text" / "tool_use" / "thinking")が混在します。

Tool use(Function calling)

Tool useはClaudeにツールの仕様を渡して、Claudeが「このツールをこの引数で呼びたい」と判断する仕組みです。Claude.aiのMCPやClaude CodeのBash / Editツールも、内部的にはこのTool use APIを使っています。

{
  "model": "claude-sonnet-4-6",
  "tools": [
    {
      "name": "get_weather",
      "description": "指定された都市の現在の天気を返す",
      "input_schema": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "都市名"}
        },
        "required": ["city"]
      }
    }
  ],
  "messages": [
    {"role": "user", "content": "東京の天気は?"}
  ]
}

Claudeは応答の中で tool_use ブロックを返し、{"name": "get_weather", "input": {"city": "東京"}} のような形でツール呼び出しを示唆します。アプリケーション側でツールを実行し、結果を tool_result として次のメッセージに含めて再度リクエストすると、Claudeが結果を踏まえて回答を生成します。

並列ツール呼び出し(複数ツールを同時に提案する)も標準でサポートされており、独立した処理を1ターンで取りに行けます。

Prompt caching — 90% コスト削減の主役

Prompt cachingは、システムプロンプト・ツール定義・長いRAGコンテキストの静的な部分をキャッシュし、後続リクエストで再利用する機能です。キャッシュ読込のコストはinputの0.10x(90% 割引)で、頻繁な再利用がある運用ではコストインパクトが極めて大きい仕組みです。

{
  "model": "claude-sonnet-4-6",
  "system": [
    {
      "type": "text",
      "text": "あなたは...(長いシステムプロンプト)",
      "cache_control": {"type": "ephemeral"}
    }
  ],
  "messages": [...]
}

cache_control: {"type": "ephemeral"} を付けたブロックがキャッシュ対象になります。TTLはデフォルト5分、ttl: "1h" で1時間に延長可能(1h TTLはcache writeが2xコストになる代わり1時間維持)。

実運用のパターンは次のとおりです。

パターン	配置
システムプロンプト + ツール定義	system + tools全体に `cache_control`
RAGドキュメントセット	system後半にRAGブロックを置き、cache化
長い会話履歴の前半	messagesの前半N件にキャッシュマーカー

詳細はAnthropic API Prompt caching完全活用を参照してください。

Extended Thinking — 推論深度を引き上げる

Claude Opus 4.7はExtended Thinkingモードを持ち、応答の前に内部的に「思考」を進めるフェーズを差し込めます。thinking: {"type": "enabled", "budget_tokens": 32000} を指定すると、最大32,000トークン分の思考を許可します。

Extended Thinkingが効くのは次のような用途です。

多段推論が必要な問題(数学 / コーディング / 戦略立案)
独自視点の生成(レビュー / 採点 / 編集解釈)
多変数の最適化(複数制約を満たす設計案の比較)

逆にExtended Thinkingが効かない / 無駄なのは、「単純な抽出 / 分類 / フォーマット変換」のような決まったパターン処理です。これらはHaiku / Sonnetで十分です。

Batch API — 50% 割引のバルク処理

Batch APIは即時性を捨てる代わりに50% 割引で大量リクエストを処理する仕組みです。最大24時間以内に結果が返るバッチジョブで、典型的には数分〜数時間で完了します。

主用途:

数千〜数万件の記事生成 / 採点 / 抽出
月次レポート / 大量翻訳 / データセット作成
リアルタイムでなくてよいRAGインデックス再生成

詳細はAnthropic Batch API完全活用を参照してください。

Files API — 画像 / PDF / Vision

Files APIはファイル(画像 / PDF / テキスト)をアップロードして、Claudeに「このファイルを読んで分析せよ」と渡せる仕組みです。Vision(画像理解)もこのAPI経由で行います。

{
  "model": "claude-sonnet-4-6",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "image", "source": {"type": "file", "file_id": "file_xxx"}},
        {"type": "text", "text": "この図は何を示していますか?"}
      ]
    }
  ]
}

PDFの数百ページ分の解析や、複数画像の差分検出などにも使えます。

Citations — RAGでの出典追跡

CitationsはClaudeが応答内で参照したソース(ドキュメント / Webページ)を、出力に構造化された形で含める機能です。RAG(Retrieval Augmented Generation)で「この主張はどのドキュメントの何ページに基づくか」を機械的に追跡できます。

出力の citation フィールドに {document_index, start_char_index, end_char_index} のような形で参照位置が含まれ、UI側で「出典N」のような表示や、原文ハイライトに展開できます。

Memory Tool — 長期記憶

Memory ToolはClaudeにセッションを跨いだ記憶を持たせる機構です。「前回のセッションで決めた事項」「ユーザー固有の好み」をMemoryに書き、後続セッションで参照します。Tool useの一種として実装されており、メモリ操作もClaudeの判断で行います。

主用途:

個人化(ユーザー名 / 好み / 過去の選択)
長期プロジェクト(数日〜数週間の継続作業)
セッション境界を超えた知識蓄積

SDK — Python / TypeScript

Anthropic公式はPythonとTypeScriptのSDKを提供しています。

SDK	パッケージ	主用途
Python	`pip install anthropic`	データ分析 / ML / バックエンド
TypeScript	`npm install @anthropic-ai/sdk`	Webアプリ / Node.js / フロントエンド

両SDKともMessages API / Tool use / Streaming / Prompt caching / Extended Thinking / Batchをフルサポート。SDKの使い方の詳細はAnthropic SDK TypeScript深掘りとAnthropic SDK Python深掘りを参照してください。

Agent SDK — エージェント開発の高水準API

Agent SDKはAnthropic公式が提供する「エージェント開発向けの高水準API」で、Messages APIの上に「マルチターン会話の状態管理」「ツール呼び出しのループ」「並列タスク分散」を載せた抽象化レイヤーです。

import { Agent } from "@anthropic-ai/agent-sdk";
 
const agent = new Agent({
  model: "claude-sonnet-4-6",
  tools: [...],
  systemPrompt: "...",
});
 
const result = await agent.run("ユーザーの依頼内容");

低レベルのMessages APIを直接叩く代わりに、Agent SDKは「Claudeにタスクを渡して結果を取る」インターフェースだけを提供します。Claude Code自身もAgent SDKの発展系で構築されており、長時間タスクの管理 / 状態保持 / ツール呼び出しの自動連鎖が組み込み済みです。

詳細はAgent SDK Quickstart TypeScriptとAgent SDK Quickstart Pythonを参照してください。

レート制限 — Tier 1〜4

Anthropic APIはTier制でレート制限が決まります。Tierは累計利用額に応じて自動引き上げされ、Tier 1(新規)→ Tier 4(エンタープライズ)で段階的に上限が緩和されます。

Tier	自動到達条件	TPM(tokens / min)	RPM(req / min)
Tier 1	新規	50,000(Sonnet)/ 20,000(Opus)	50
Tier 2	$40入金後	200,000 / 80,000	100
Tier 3	$200入金後	400,000 / 160,000	200
Tier 4	$400入金後	800,000 / 320,000	400

実数値はモデル / 公式の最新更新で変動するため、本番運用前にconsole.anthropic.com で現在のTierと上限を確認してください。レート制限到達時は 429 rate_limit_error が返るので、SDKの自動リトライ + exponential backoffで対応します。

詳細はAnthropic API Rate limit対策を参照してください。

ストリーミング(SSE)

stream: true を指定するとServer-Sent Events形式で応答がチャンク単位で返ります。ChatGPT風の「タイプライター効果」を実装する典型用途のほか、長文生成時の応答開始までの体感待ち時間を短縮できます。

const stream = await anthropic.messages.stream({
  model: "claude-sonnet-4-6",
  max_tokens: 1024,
  messages: [{role: "user", content: "..."}],
});
for await (const event of stream) {
  if (event.type === "content_block_delta") {
    process.stdout.write(event.delta.text);
  }
}

詳細はAnthropic API Streaming実装ガイドを参照してください。

マルチクラウド展開 — AWS Bedrock / Google Vertex AI

ClaudeモデルはAnthropic直APIのほか、AWS Bedrock / Google Vertex AI経由でも利用できます。各プラットフォームで価格 / リージョン / SLA / 認証フローが異なります。

プラットフォーム	認証	リージョン	用途
Anthropic直API	API key	global(米国データセンター中心)	標準。SDKもこれ前提
AWS Bedrock	IAM	多リージョン(東京含む)	AWS既存利用企業、データresidency要件
Google Vertex AI	GCP IAM	多リージョン	GCP既存利用企業、Vertex AI統合

詳細はAnthropic API vs Bedrock vs Vertex比較を参照してください。

AUP — 利用規約上の留意点

Anthropic Acceptable Use Policy(AUP)はAPI利用時の禁止行為を定めています。代表的な制限は次のとおりです。

advice / recommendationsカテゴリ:医療 / 法律 / 金融 / 人材判断などの強い助言はHuman-in-the-loopが必須
高リスク用途:インフラ制御 / 致死性決定 / 武器関連は禁止
コンテンツ:児童性的虐待 / 自殺扇動 / マルウェア生成 / 大規模偽情報は禁止
政治広告 / 選挙影響操作:制限あり

詳細はAnthropic AUP解説で扱っています。商用利用時はAUP + Commercial Termsを必ず確認してください。

ベストプラクティス

実運用で効くベストプラクティスを5つ。

systemプロンプトをcache化する:システム + ツール定義は静的なので、cache_control: ephemeral を付けると90% コスト削減
モデルルーティングでHaiku比率を上げる:単純抽出 / 採点はHaiku、複雑思考のみOpusに振り分けて累計コストを最小化
Batchを使えるところはBatchにする:即時性が不要なバルク処理はBatchで50% 割引、月数万件のジョブで効果が大きい
Tool useはinput_schemaを厳密に:JSON Schemaを厳密にするとClaudeのツール呼び出し精度が大幅に上がる(曖昧なdescriptionは精度低下)
Extended Thinkingは判断系のみ:抽出 / 分類はthinking不要、深い独自視点 / 戦略立案でのみON

よくある質問

Q1. Anthropic APIとClaude.aiの違いは?

Claude.aiはAnthropic公式のチャットUI(Web / Desktop / Mobile)で、Pro / Team / Maxプランの月額課金。Anthropic APIは開発者向けのREST APIで、トークン単位の従量課金。同じClaudeモデルを使うが、UI提供vsプログラム統合の違い。

Q2. プラン(Pro / Team / Max)とTier(1〜4)の関係は?

Pro / Team / MaxはClaude.aiの月額プラン。TierはAPIの利用枠で、累計利用額に応じて自動引き上げ。互いに独立した課金体系。

Q3. Claude Codeはどのモデル / APIを使う?

Claude Codeは内部でAnthropic APIを呼び、デフォルトではSonnetを使うが、/model コマンドでOpus 4.7 / Haiku 4.5に切替可能。Maxプラン(Claude.ai月額)に紐づくOAuth認証も使え、APIトークンを直接管理しない構成にできる。

Q4. Prompt cachingのTTLを5分から1時間に延ばすべきか?

ワークロード次第。1時間ごとに同じプロンプトを使い回す運用なら1h TTLが安い(cache write 2xの代わり12倍の再利用)。5分以内に大量リクエストがあるなら5min TTLの方が安く済む。

Q5. Agent SDKとMessages APIはどちらを使うべきか?

シンプルな単発リクエストはMessages API、ツール呼び出し / マルチターン / 状態管理が絡む長時間タスクはAgent SDKが向く。Claude Code自体がAgent SDKベース。

まとめ

Anthropic APIは「モデル」「Tool use」「Prompt caching」「Extended Thinking」「Batch」「Files」「Citations」「Memory Tool」「Agent SDK」を組み合わせて、柔軟性とコスト最適化を両立するエージェント基盤です。

設計判断の軸は次の3つに集約されます。

モデルを用途別に分ける:Opus / Sonnet / Haikuを1ジョブ単位で最適化
静的部分をcache化する:システム + ツール + RAGで90% コスト削減
即時性が不要ならBatchを使う:50% 割引でバルクワークロード

具体的な実装パターンは関連記事(Tool use / Prompt caching / Batch / Files / Agent SDK / SDK言語別)で深掘りしています。本記事から各分野に進んで、自分のユースケースに合う組合せを設計してください。

Anthropic APIは単なるLLM APIではなく、エージェント設計の基盤として急速に成熟しています。料金 / モデル / 機能は四半期ごとに変動するため、本記事の数値は執筆時点のものとして参照しつつ、最新値はconsole.anthropic.com と公式docs でご確認ください。