本文へスキップ
Claude Media
Claude Codeのfast modeとは — Opusを2.5倍速にする/fastコマンドの使いどころと料金

Claude Codeのfast modeとは — Opusを2.5倍速にする/fastコマンドの使いどころと料金

Claude Codeのfast modeは、Opusの出力を2.5倍速にするリサーチプレビュー機能です。/fastコマンドでの切り替え、$30/$150の料金、effortレベルとの違い、利用条件と組織での制御までをまとめます。

読了目安 約9

Claude Codeのfast modeは、Claude Opusの応答を速くするためのリサーチプレビュー機能です。/fastコマンドで切り替えると、同じOpusのまま出力トークンの生成が最大2.5倍速くなり、対話的なコード修正やライブデバッグの待ち時間が短くなります。

ただしfast modeは速さと引き換えに料金が上がります。入力100万トークンあたり30ドル、出力100万トークンあたり150ドルと、通常のOpusのおよそ6倍の単価です。本記事では、fast modeの正体、/fastでの切り替え方、料金とのトレードオフ、effortレベルやモデル選択との違い、利用条件と組織での制御までをまとめます。

fast modeとは何か(モデルの差し替えではない)

fast modeは、Claude Opusを「高速な推論構成」で動かす設定です。公式ドキュメントは「Fast mode is not a different model」と明記しており、別のモデルに切り替わるわけではありません。モデルの重みも振る舞いも通常のOpusと同じで、変わるのは応答が返ってくる速さだけです。

ここが最初に押さえたい誤解しやすいポイントです。Claude Codeで「速くしたい」と思ったとき、まず思いつくのはSonnetやHaikuのような小さいモデルへの切り替えですが、それはモデルそのものを差し替える操作で、複雑なタスクでの判断力が落ちる可能性があります。fast modeはOpusの知能をそのままに、トークン生成の速度だけを引き上げる仕組みです。「品質を保ったまま速くする」のがfast mode、「軽いモデルに変えて速くする」のがモデル選択、という住み分けになります。

速くなるのは具体的には出力トークンの生成速度(OTPS:1秒あたりの出力トークン数)で、標準速度と比べて最大2.5倍です。一方、最初の文字が返ってくるまでの時間(TTFT:最初のトークンまでの時間)は対象外で、ここは速くなりません。長い回答ほど体感の差が大きく、短い一往復ではあまり違いを感じにくい、という性質があります。

対応モデルはOpus 4.7とOpus 4.6の2つだけです。Sonnet・Haiku・その他のモデルでは使えません。fast modeを有効にした時点で別のモデルを使っていた場合、Claude Codeは自動的にOpusへ切り替えます。

/fastコマンドでfast modeを切り替える

Claude Code CLIでは、/fastと入力してTabキーを押すとfast modeのオンとオフが切り替わります。VS Code拡張でも同じく/fastで操作できます。設定ファイルから常時オンにしておきたい場合は、ユーザー設定ファイルに "fastMode": true を書く方法もあります。

有効にすると、次のことが起きます。

  • 別のモデルを使っていた場合はOpusへ自動で切り替わる
  • 「Fast mode ON」という確認メッセージが表示される
  • プロンプトの横に小さな アイコンが表示され、fast modeが動いている間は出たままになる
  • もう一度/fastを実行すると、現在オンかオフかを確認できる

fast modeは既定でセッションをまたいで保持されます。一度オンにすると、次に起動したセッションでもオンのままです。オフに戻したいときはもう一度/fastを実行しますが、このときモデルはOpusのまま残ります。元のモデルには自動で戻らないため、SonnetやHaikuに移したいときは/modelで明示的に切り替える必要があります。Claude Codeのコマンド体系についてはスラッシュコマンドの記事でまとめています。

Claude Code v2.1.142以降では、fast modeの既定モデルはOpus 4.7です。Opus 4.6に固定したい場合は、環境変数 CLAUDE_CODE_OPUS_4_6_FAST_MODE_OVERRIDE=1 を設定します。なお、fast mode自体を使うにはClaude Code v2.1.36以降が必要で、claude --version で確認できます。fast modeのオン・オフには既定でMeta+O(macOSではOption+O)のキーバインドも割り当てられており、/keybindings で開く ~/.claude/keybindings.json から chat:fastMode アクションとして好みのキーに変更できます。

速度と料金のトレードオフ

fast modeの料金は、通常のOpusより明確に高くなります。

モード入力(100万トークン)出力(100万トークン)
fast mode$30$150

これは標準のOpus単価のおよそ6倍にあたり、Opus 4.7とOpus 4.6のどちらでも同じ$30/$150です。しかもこの単価は1Mトークンのコンテキスト全域に一律で適用されます。長いコンテキストを抱えたセッションでは、入力トークンの量がそのまま費用に効いてきます。

特に注意したいのが、会話の途中でfast modeをオンにしたときの挙動です。途中で切り替えると、それまで積み上がった会話コンテキスト全体に対して、キャッシュなしのfast mode入力単価が一度に課金されます。最初からオンにしておく場合より割高になります。

サブスクリプションプラン(Pro / Max / Team / Enterprise)で使う場合、fast modeのトークンはプランに含まれる利用枠とは別枠で、usage credits(利用クレジット)から直接消費されます。プランの利用枠が残っていても、fast modeのトークンは最初の1トークンからfast mode単価で課金されます。費用全体の考え方はClaude Codeの料金プラン選びの記事も参考になります。

fast modeを使うべき場面・避けたい場面

fast modeは「待ち時間の短さが料金より価値を持つ」場面に向きます。逆に、待ち時間がそれほど問題にならない作業では、標準モードのほうが費用面で無難です。作業の性質ごとの相性を早見表にまとめます。

作業の性質fast modeの相性補足
コードの細かい修正を繰り返す1往復が短く、待ち時間の短縮が体感に出やすい
ライブデバッグ・締め切り直前の作業速さがそのまま価値に直結する場面
長時間の自律実行タスク速度より総コストが効く。標準モードが無難
CI/CDやバッチ処理対話的でなく、待ち時間の価値が低い
コストを最優先するワークロード6倍の単価が重く、効果と釣り合いにくい

判断の軸はシンプルで、「自分がその応答を待っているか」です。画面の前で次の指示を出すために結果を待っている対話的な作業では、2.5倍の速度差が作業のテンポを変えます。一方、Claude Codeを走らせて別のことをしている自律タスクや、CIの中で動くバッチ実行では、数十秒早く終わってもうれしさは小さく、6倍の単価だけが残ります。

モデル選択・effortレベルとの違い

「Claude Codeの応答を速くする」操作はfast modeだけではありません。混同しやすい3つの手段が何を変えるのかを並べて見ます。

速くする手段何が変わるか品質への影響コストへの影響
fast mode出力トークンの生成速度(最大2.5倍)なし(同じOpus)上がる(6倍の単価)
effortレベルを下げる思考に使う時間の量複雑なタスクで下がる可能性下がる(消費トークンが減る)
軽いモデルに変更モデルそのものタスク次第で下がる下がる(単価が安い)

fast modeとeffortレベルは、どちらも応答速度に効きますが効き方が違います。fast modeはモデルの品質を保ったまま遅延だけを下げ、その代わり単価が上がります。effortレベルを下げると、Claudeが考えることに使う時間が減って速くなりますが、込み入ったタスクでは出力の質が落ちることがあります。両者は併用でき、難しくない作業では「fast mode + 低めのeffort」で速度を最大化する組み合わせも選べます。effortレベルの考え方はOpus 4.7のeffort設定の記事(Opus 4.7のxhighと出力品質の記事)で詳しく扱っています。

モデル選択は、そもそも別のモデルに乗り換える操作です。SonnetやHaikuは単価が安く速いですが、Opusとは判断力の傾向が異なります。タスクに必要な知能を確保したうえで速くしたいならfast mode、知能を多少落としてでもコストを下げたいならモデル変更、という分かれ方になります。モデルごとの向き不向きはモデル選択ガイドで比較しています。

利用条件と組織での制御

fast modeを使うには、いくつかの前提条件があります。

  • サードパーティのクラウドでは使えない:Amazon Bedrock、Google Vertex AI、Microsoft Azure Foundry経由ではfast modeを利用できません。利用できるのはAnthropic Console APIと、利用クレジットを使うClaudeのサブスクリプションプランです。
  • 利用クレジットを有効にしておく:アカウントで利用クレジットがオンになっている必要があります。個人アカウントはConsoleの請求設定から、TeamとEnterpriseは管理者が組織単位で有効にします。
  • TeamとEnterpriseは管理者の有効化が必要:組織向けプランではfast modeは既定で無効です。管理者が明示的に有効化するまで利用者は使えません。管理者は、API利用ならConsoleのClaude Code設定画面から、Team・EnterpriseならClaude AIの管理者設定にあるClaude Code項目から有効化します。有効化されていない状態で/fastを実行すると、「Fast mode has been disabled by your organization」と表示されます。

組織でコストを管理する側にも、いくつかの制御ポイントがあります。fast modeを完全に無効化したい場合は、環境変数 CLAUDE_CODE_DISABLE_FAST_MODE=1 を設定します。また、TeamとEnterpriseの管理者は、管理対象の設定で fastModePerSessionOptIntrue にできます。これを設定すると、各セッションはfast modeがオフの状態で始まり、利用者が必要なときだけ/fastで明示的にオンにする運用になります。利用者ごとの複数セッション同時実行が増えがちな組織で、費用が膨らむのを抑えるための仕組みです。

レート上限に当たったときの挙動

fast modeには、標準のOpusとは別枠のレート上限が設定されています。Opus 4.7とOpus 4.6のfast modeは同じ上限の枠を共有しており、どちらを使っても同じ枠から消費されます。

fast modeのレート上限に達したとき、または利用クレジットを使い切ったときは、次のように動きます。

  1. fast modeが自動的に標準速度へフォールバックする
  2. アイコンがグレーに変わり、クールダウン中であることを示す
  3. 標準速度・標準料金のまま作業を続けられる
  4. クールダウンが明けると、fast modeが自動的に再び有効になる

つまり上限に当たっても作業が止まるわけではなく、速度と料金が一時的に標準へ戻るだけです。クールダウンを待たずに自分でfast modeを切りたいときは、もう一度/fastを実行します。作業が中断されない設計になっているため、上限を強く意識せずに使い始められます。

fast modeは誰の待ち時間を短くするのか

fast modeをどう位置づけるかを考えると、これは「速さを料金で買う」操作だと整理できそうです。モデル選択が知能とコストのバランスを取る軸、effortレベルが思考量と速度のバランスを取る軸だとすると、fast modeは品質を固定したまま遅延だけを動かす、もう一本別の軸を足したと読めます。

恩恵が大きいのは、画面の前で結果を待っている人の待ち時間です。出力が長くなる作業ほど2.5倍の差は積み上がり、リファクタリングの提案や複数ファイルの説明を読みながら次の手を考える、といったテンポの良い対話に効いてきます。逆に、Claude Codeに任せて離席している自律実行や、人の目が即座に介在しないCIの中では、速くなった分の価値を受け取る人がいないため、6倍の単価だけが残ります。

リサーチプレビュー段階のため、料金や提供範囲は今後変わる可能性があります。現時点では「対話のテンポを上げたい局面で、セッション開始時にオンにして使う」のが、効果とコストのバランスを取りやすい使い方だと言えそうです。

まとめ

fast modeは、Claude Opusを別モデルに替えずに、出力トークンの生成速度を最大2.5倍にするリサーチプレビュー機能です。/fastとTabで切り替え、 アイコンで状態がわかります。料金は入力$30・出力$150の100万トークン単価で、標準Opusのおよそ6倍です。

向くのは、コードの反復修正やライブデバッグのように待ち時間の短さが価値に直結する対話的な作業です。長時間の自律タスクやCI/CD、コスト重視のワークロードでは標準モードのほうが無難です。サードパーティのクラウドでは使えず、TeamとEnterpriseでは管理者の有効化が必要な点も、導入前に押さえておきたい条件です。

この記事を共有:XLinkedIn