本文へスキップ
Claude Media
Anthropic API完全ガイド2026 — モデル / 料金 / Tool use / Prompt cachingまで網羅

Anthropic API完全ガイド2026 — モデル / 料金 / Tool use / Prompt cachingまで網羅

Anthropic APIはClaudeモデル(Opus / Sonnet / Haiku)に直接アクセスする公式APIです。モデル選択、料金体系、リクエスト構造、Tool use、Prompt caching、Extended Thinking、Batch、Files、Citations、Memory Tool、Agent SDK、レート制限、マルチクラウド展開までを完全網羅します。

読了目安 約23

Anthropic APIはClaudeモデル(Opus / Sonnet / Haiku)に直接アクセスする公式APIです。Claude.ai(Web UI)やClaude Code(CLI)が裏で使っているのと同じAPIを、開発者が自分のアプリケーションから呼び出してLLMを統合できます。

本記事はAnthropic APIの全体像と、Agent SDKまでを含めた構成要素を1本で把握できるPillarガイドです。モデル選択 / 料金 / リクエスト構造 / Tool use / Prompt caching / Extended Thinking / Batch / Files / Citations / Memory Tool / SDK / Agent SDK / レート制限 / マルチクラウド展開を網羅します。

Anthropic APIとは

Anthropic APIはHTTPS / JSONベースのREST APIです。エンドポイントは https://api.anthropic.com で、Messages API(POST /v1/messages)が中核です。リクエストにモデル名 / メッセージ列 / システムプロンプト / ツール定義を渡すと、Claudeが応答を返します。

Claude.ai(Claude)のチャットUIと異なり、Anthropic APIは次のような特徴を持ちます。

  • 開発者の自前アプリケーションから直接呼べる(SDK / curl / 任意のHTTPクライアント)
  • Pay-as-you-go(従量課金)でinput / outputトークン単位の料金体系
  • Tool use(Function calling)・Streaming・Prompt caching・Extended Thinking・Batch・Visionなど、Claude.aiでは使えない開発向け機能を提供
  • レート制限がTier制(1〜4)で、利用実績に応じて自動引き上げ

Claude CodeCoworkClaude Designも内部でAnthropic APIを使っており、これらは「APIの上に乗ったアプリケーション層」です。本記事はAPIそのもの(基盤層)を扱います。

モデル選択 — Opus / Sonnet / Haikuの使い分け

Anthropic APIでは現時点で3系統のモデルが提供されています。各モデルは「知能の深さ」「速度」「コスト」のトレードオフが異なります。

モデル強み主用途相対コスト
Claude Opus 4.7最高水準の推論深度、Extended Thinking対応重い思考・複雑な独自視点・コードレビュー・研究高(input $15 / output $75 per 1M tokens程度)
Claude Sonnet 4.6速度と品質のバランス、汎用最強標準的な執筆 / 調査 / 製品統合中(input $3 / output $15 per 1M tokens程度)
Claude Haiku 4.5高速 + 安価、構造的タスクで精度を保つ抽出 / 採点 / 速報処理 / 軽量バッチ低(input $0.80 / output $4 per 1M tokens程度)

選び方の原則は次のとおりです。

  1. 判断軸が複雑 / 独自性が必要 → Opus:採点 / レビュー / 戦略立案のような深い推論。Extended Thinkingで更に精度を上げられる
  2. 汎用的な作業 → Sonnet:大半のユースケースはSonnetで十分。コスト感も実用範囲
  3. 明確な判定基準 / 抽出系 → Haiku:既知パターンの分類、JSON抽出、ログ要約、リアルタイム応答が必要なチャット

詳細なモデル比較はClaude Opus vs Sonnet vs Haiku使い分けを参照してください。

料金体系

Anthropic APIはPay-as-you-goの従量課金で、input / outputトークンごとに価格が設定されています。料金は公式(anthropic.com/pricing)に最新が掲載されているため、本記事では「料金の構造」を扱います。

課金軸説明
input tokensリクエストでモデルに送ったメッセージ / システムプロンプト / ツール定義のトークン数
output tokensモデルが生成して返したテキストのトークン数。生成量に応じて課金
cache writePrompt cachingで書き込んだトークン数(inputの1.25x程度)
cache readキャッシュから読んだトークン数(inputの0.10x = 90% 割引)
BatchバッチAPI経由のリクエストは全体50% 割引

実運用のコスト最適化では、次の3つを組合せると累計コストを大きく下げられます。

  1. Prompt caching:システムプロンプト + ツール定義 + RAGコンテキストをキャッシュ化(後述)
  2. モデルルーティング:重い思考はOpus、軽量タスクはHaikuに振り分ける
  3. Batch API:即時性が不要なバルク処理はBatchで50% 割引

詳細な料金シミュレーションはAnthropic API料金 深掘りを参照してください(料金プラン別の構造解説と典型ワークロードの試算)。

リクエスト構造(Messages API)

最小のAnthropic APIリクエストは次の形です。

curl https://api.anthropic.com/v1/messages \
  --header "x-api-key: $ANTHROPIC_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-opus-4-7",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "こんにちは"}
    ]
  }'

主要パラメータの意味は次のとおりです。

パラメータ役割必須
model使うモデルID(claude-opus-4-7 / claude-sonnet-4-6 / claude-haiku-4-5-20251001 等)
max_tokens出力トークンの上限。モデル別のmaxを超えない範囲で指定
messages会話履歴の配列。role: "user" / "assistant" で対話を構成
systemシステムプロンプト。モデルの振る舞いを定義する常駐文
toolsTool use定義(後述)
temperature出力の確率分布制御(0.0〜1.0)。低いほど一貫性、高いほど多様性
streamtrueでSSEストリーミング応答
thinkingExtended Thinking設定(Opusのみ、後述)

レスポンスは content フィールドにメッセージブロックの配列が返ります。Tool useやExtended Thinkingが有効な場合、複数のblock(type: "text" / "tool_use" / "thinking")が混在します。

Tool use(Function calling)

Tool useはClaudeにツールの仕様を渡して、Claudeが「このツールをこの引数で呼びたい」と判断する仕組みです。Claude.aiのMCPやClaude CodeのBash / Editツールも、内部的にはこのTool use APIを使っています。

{
  "model": "claude-sonnet-4-6",
  "tools": [
    {
      "name": "get_weather",
      "description": "指定された都市の現在の天気を返す",
      "input_schema": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "都市名"}
        },
        "required": ["city"]
      }
    }
  ],
  "messages": [
    {"role": "user", "content": "東京の天気は?"}
  ]
}

Claudeは応答の中で tool_use ブロックを返し、{"name": "get_weather", "input": {"city": "東京"}} のような形でツール呼び出しを示唆します。アプリケーション側でツールを実行し、結果を tool_result として次のメッセージに含めて再度リクエストすると、Claudeが結果を踏まえて回答を生成します。

並列ツール呼び出し(複数ツールを同時に提案する)も標準でサポートされており、独立した処理を1ターンで取りに行けます。

Prompt caching — 90% コスト削減の主役

Prompt cachingは、システムプロンプト・ツール定義・長いRAGコンテキストの静的な部分をキャッシュし、後続リクエストで再利用する機能です。キャッシュ読込のコストはinputの0.10x(90% 割引)で、頻繁な再利用がある運用ではコストインパクトが極めて大きい仕組みです。

{
  "model": "claude-sonnet-4-6",
  "system": [
    {
      "type": "text",
      "text": "あなたは...(長いシステムプロンプト)",
      "cache_control": {"type": "ephemeral"}
    }
  ],
  "messages": [...]
}

cache_control: {"type": "ephemeral"} を付けたブロックがキャッシュ対象になります。TTLはデフォルト5分、ttl: "1h" で1時間に延長可能(1h TTLはcache writeが2xコストになる代わり1時間維持)。

実運用のパターンは次のとおりです。

パターン配置
システムプロンプト + ツール定義system + tools全体に cache_control
RAGドキュメントセットsystem後半にRAGブロックを置き、cache化
長い会話履歴の前半messagesの前半N件にキャッシュマーカー

詳細はAnthropic API Prompt caching完全活用を参照してください。

Extended Thinking — 推論深度を引き上げる

Claude Opus 4.7はExtended Thinkingモードを持ち、応答の前に内部的に「思考」を進めるフェーズを差し込めます。thinking: {"type": "enabled", "budget_tokens": 32000} を指定すると、最大32,000トークン分の思考を許可します。

Extended Thinkingが効くのは次のような用途です。

  • 多段推論が必要な問題(数学 / コーディング / 戦略立案)
  • 独自視点の生成(レビュー / 採点 / 編集解釈)
  • 多変数の最適化(複数制約を満たす設計案の比較)

逆にExtended Thinkingが効かない / 無駄なのは、「単純な抽出 / 分類 / フォーマット変換」のような決まったパターン処理です。これらはHaiku / Sonnetで十分です。

Batch API — 50% 割引のバルク処理

Batch APIは即時性を捨てる代わりに50% 割引で大量リクエストを処理する仕組みです。最大24時間以内に結果が返るバッチジョブで、典型的には数分〜数時間で完了します。

主用途:

  • 数千〜数万件の記事生成 / 採点 / 抽出
  • 月次レポート / 大量翻訳 / データセット作成
  • リアルタイムでなくてよいRAGインデックス再生成

詳細はAnthropic Batch API完全活用を参照してください。

Files API — 画像 / PDF / Vision

Files APIはファイル(画像 / PDF / テキスト)をアップロードして、Claudeに「このファイルを読んで分析せよ」と渡せる仕組みです。Vision(画像理解)もこのAPI経由で行います。

{
  "model": "claude-sonnet-4-6",
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "image", "source": {"type": "file", "file_id": "file_xxx"}},
        {"type": "text", "text": "この図は何を示していますか?"}
      ]
    }
  ]
}

PDFの数百ページ分の解析や、複数画像の差分検出などにも使えます。

Citations — RAGでの出典追跡

CitationsはClaudeが応答内で参照したソース(ドキュメント / Webページ)を、出力に構造化された形で含める機能です。RAG(Retrieval Augmented Generation)で「この主張はどのドキュメントの何ページに基づくか」を機械的に追跡できます。

出力の citation フィールドに {document_index, start_char_index, end_char_index} のような形で参照位置が含まれ、UI側で「出典N」のような表示や、原文ハイライトに展開できます。

Memory Tool — 長期記憶

Memory ToolはClaudeにセッションを跨いだ記憶を持たせる機構です。「前回のセッションで決めた事項」「ユーザー固有の好み」をMemoryに書き、後続セッションで参照します。Tool useの一種として実装されており、メモリ操作もClaudeの判断で行います。

主用途:

  • 個人化(ユーザー名 / 好み / 過去の選択)
  • 長期プロジェクト(数日〜数週間の継続作業)
  • セッション境界を超えた知識蓄積

SDK — Python / TypeScript

Anthropic公式はPythonとTypeScriptのSDKを提供しています。

SDKパッケージ主用途
Pythonpip install anthropicデータ分析 / ML / バックエンド
TypeScriptnpm install @anthropic-ai/sdkWebアプリ / Node.js / フロントエンド

両SDKともMessages API / Tool use / Streaming / Prompt caching / Extended Thinking / Batchをフルサポート。SDKの使い方の詳細はAnthropic SDK TypeScript深掘りAnthropic SDK Python深掘りを参照してください。

Agent SDK — エージェント開発の高水準API

Agent SDKはAnthropic公式が提供する「エージェント開発向けの高水準API」で、Messages APIの上に「マルチターン会話の状態管理」「ツール呼び出しのループ」「並列タスク分散」を載せた抽象化レイヤーです。

import { Agent } from "@anthropic-ai/agent-sdk";
 
const agent = new Agent({
  model: "claude-sonnet-4-6",
  tools: [...],
  systemPrompt: "...",
});
 
const result = await agent.run("ユーザーの依頼内容");

低レベルのMessages APIを直接叩く代わりに、Agent SDKは「Claudeにタスクを渡して結果を取る」インターフェースだけを提供します。Claude Code自身もAgent SDKの発展系で構築されており、長時間タスクの管理 / 状態保持 / ツール呼び出しの自動連鎖が組み込み済みです。

詳細はAgent SDK Quickstart TypeScriptAgent SDK Quickstart Pythonを参照してください。

レート制限 — Tier 1〜4

Anthropic APIはTier制でレート制限が決まります。Tierは累計利用額に応じて自動引き上げされ、Tier 1(新規)→ Tier 4(エンタープライズ)で段階的に上限が緩和されます。

Tier自動到達条件TPM(tokens / min)RPM(req / min)
Tier 1新規50,000(Sonnet)/ 20,000(Opus)50
Tier 2$40入金後200,000 / 80,000100
Tier 3$200入金後400,000 / 160,000200
Tier 4$400入金後800,000 / 320,000400

実数値はモデル / 公式の最新更新で変動するため、本番運用前にconsole.anthropic.com で現在のTierと上限を確認してください。レート制限到達時は 429 rate_limit_error が返るので、SDKの自動リトライ + exponential backoffで対応します。

詳細はAnthropic API Rate limit対策を参照してください。

ストリーミング(SSE)

stream: true を指定するとServer-Sent Events形式で応答がチャンク単位で返ります。ChatGPT風の「タイプライター効果」を実装する典型用途のほか、長文生成時の応答開始までの体感待ち時間を短縮できます。

const stream = await anthropic.messages.stream({
  model: "claude-sonnet-4-6",
  max_tokens: 1024,
  messages: [{role: "user", content: "..."}],
});
for await (const event of stream) {
  if (event.type === "content_block_delta") {
    process.stdout.write(event.delta.text);
  }
}

詳細はAnthropic API Streaming実装ガイドを参照してください。

マルチクラウド展開 — AWS Bedrock / Google Vertex AI

ClaudeモデルはAnthropic直APIのほか、AWS Bedrock / Google Vertex AI経由でも利用できます。各プラットフォームで価格 / リージョン / SLA / 認証フローが異なります。

プラットフォーム認証リージョン用途
Anthropic直APIAPI keyglobal(米国データセンター中心)標準。SDKもこれ前提
AWS BedrockIAM多リージョン(東京含む)AWS既存利用企業、データresidency要件
Google Vertex AIGCP IAM多リージョンGCP既存利用企業、Vertex AI統合

詳細はAnthropic API vs Bedrock vs Vertex比較を参照してください。

AUP — 利用規約上の留意点

Anthropic Acceptable Use Policy(AUP)はAPI利用時の禁止行為を定めています。代表的な制限は次のとおりです。

  • advice / recommendationsカテゴリ:医療 / 法律 / 金融 / 人材判断などの強い助言はHuman-in-the-loopが必須
  • 高リスク用途:インフラ制御 / 致死性決定 / 武器関連 は禁止
  • コンテンツ:児童性的虐待 / 自殺扇動 / マルウェア生成 / 大規模偽情報 は禁止
  • 政治広告 / 選挙影響操作:制限あり

詳細はAnthropic AUP解説で扱っています。商用利用時はAUP + Commercial Termsを必ず確認してください。

ベストプラクティス

実運用で効くベストプラクティスを5つ。

  1. systemプロンプトをcache化する:システム + ツール定義は静的なので、cache_control: ephemeral を付けると90% コスト削減
  2. モデルルーティングでHaiku比率を上げる:単純抽出 / 採点はHaiku、複雑思考のみOpusに振り分けて累計コストを最小化
  3. Batchを使えるところはBatchにする:即時性が不要なバルク処理はBatchで50% 割引、月数万件のジョブで効果が大きい
  4. Tool useはinput_schemaを厳密に:JSON Schemaを厳密にするとClaudeのツール呼び出し精度が大幅に上がる(曖昧なdescriptionは精度低下)
  5. Extended Thinkingは判断系のみ:抽出 / 分類はthinking不要、深い独自視点 / 戦略立案でのみON

よくある質問

Q1. Anthropic APIとClaude.aiの違いは?

Claude.aiはAnthropic公式のチャットUI(Web / Desktop / Mobile)で、Pro / Team / Maxプランの月額課金。Anthropic APIは開発者向けのREST APIで、トークン単位の従量課金。同じClaudeモデルを使うが、UI提供vsプログラム統合の違い。

Q2. プラン(Pro / Team / Max)とTier(1〜4)の関係は?

Pro / Team / MaxはClaude.aiの月額プラン。TierはAPIの利用枠で、累計利用額に応じて自動引き上げ。互いに独立した課金体系。

Q3. Claude Codeはどのモデル / APIを使う?

Claude Codeは内部でAnthropic APIを呼び、デフォルトではSonnetを使うが、/model コマンドでOpus 4.7 / Haiku 4.5に切替可能。Maxプラン(Claude.ai月額)に紐づくOAuth認証も使え、APIトークンを直接管理しない構成にできる。

Q4. Prompt cachingのTTLを5分から1時間に延ばすべきか?

ワークロード次第。1時間ごとに同じプロンプトを使い回す運用なら1h TTLが安い(cache write 2xの代わり12倍の再利用)。5分以内に大量リクエストがあるなら5min TTLの方が安く済む。

Q5. Agent SDKとMessages APIはどちらを使うべきか?

シンプルな単発リクエストはMessages API、ツール呼び出し / マルチターン / 状態管理が絡む長時間タスクはAgent SDKが向く。Claude Code自体がAgent SDKベース。

まとめ

Anthropic APIは「モデル」「Tool use」「Prompt caching」「Extended Thinking」「Batch」「Files」「Citations」「Memory Tool」「Agent SDK」を組み合わせて、柔軟性とコスト最適化を両立するエージェント基盤です。

設計判断の軸は次の3つに集約されます。

  1. モデルを用途別に分ける:Opus / Sonnet / Haikuを1ジョブ単位で最適化
  2. 静的部分をcache化する:システム + ツール + RAGで90% コスト削減
  3. 即時性が不要ならBatchを使う:50% 割引でバルクワークロード

具体的な実装パターンは関連記事(Tool use / Prompt caching / Batch / Files / Agent SDK / SDK言語別)で深掘りしています。本記事から各分野に進んで、自分のユースケースに合う組合せを設計してください。

Anthropic APIは単なるLLM APIではなく、エージェント設計の基盤として急速に成熟しています。料金 / モデル / 機能は四半期ごとに変動するため、本記事の数値は執筆時点のものとして参照しつつ、最新値はconsole.anthropic.com公式docs でご確認ください。

この記事を共有:XLinkedIn