Gemini 3.1 Pro完全ガイド｜3段階推論モードとClaude・GPTとの使い分け

2026年2月23日
AI

「AIモデル、多すぎてどれ使えばいいかわからない」——そう感じていませんか？

2026年2月19日、Google DeepMindがGemini 3.1 Proをリリースしました。これがまた、AIモデル選びの常識をひっくり返すレベルのアップデートなんです。18ベンチマーク中12以上で首位を獲得しながら、Claude Opus 4.6の約7分の1の料金。さらに3段階の推論モード（LOW/MEDIUM/HIGH）を搭載して、「考える深さ」を自分でコントロールできるようになりました。

この記事では、僕が普段からClaude MAX・ChatGPT Pro・Geminiを併用している「AI複数使い」の実践者として、Gemini 3.1 Proの実力と、Claude・GPTとの具体的な使い分け戦略をお伝えします。

こんな方におすすめ

AIモデルが多すぎて、どれを使えばいいか迷っている方
APIコストを抑えつつ、推論性能も妥協したくない方
Claude・GPT・Geminiの使い分けを具体的に知りたい方
Gemini 3.1 Proの推論モードをすぐに試してみたい方

この記事でわかること

Gemini 3.1 ProのLOW/MEDIUM/HIGHモードの違いと使い分け方
Claude Opus 4.6・GPT-5.3とのベンチマーク比較と実力差
APIコストを50〜70%削減する実践的な運用テクニック
タスク別に最適なAIモデルを選ぶための判断フローチャート

筆者は福祉事業のIT全般をCTOとして担当しながら、フリーランスエンジニアとしてAI×SaaS開発に従事しています。Mac mini M4 Proを24時間稼働させてAIエージェントを運用中。Claude MAX + ChatGPT Pro+ Google Workspaceなどのサブスクを維持し、日常的に複数のAIモデルを使い分けています。

1 Gemini 3.1 Proとは？——「.1刻み」アップデートの衝撃
2 3段階推論モード完全ガイド——LOW・MEDIUM・HIGHの使い分け
3 ベンチマーク徹底比較——Claude Opus 4.6・GPT-5.3とのガチ対決
4 料金とコスト最適化——Opus 4.6の7分の1で使える推論力
5 実務での使い分け戦略——タスク別に最適なAIモデルを選ぶ
6 やらないと損する最悪の未来
7 この記事を書いている理由
8 まとめ：「1つのモデルで全部やる」時代は終わった

Gemini 3.1 Proとは？——「.1刻み」アップデートの衝撃

まず「Gemini 3.1 Pro」という名前に注目してください。これまでGoogleのAIモデルは、Gemini 1.0 → 1.5 → 2.0 → 3.0 と、大きなバージョンジャンプで進化してきました。今回はじめて「.1」刻みのアップデートが行われたんです。

「え、マイナーアップデートでしょ？」と思うかもしれませんが、中身はまったくマイナーじゃありません。むしろこれは、Googleが「大きなモデルチェンジを待たずに、継続的に性能を上げていく」という新しい開発方針を示したサインです。ユーザーにとっては、進化が加速するという意味でかなり嬉しい方向転換ですよね。

Gemini 3.1 Proの主なスペックをまとめます。

推論モード — LOW/MEDIUM/HIGHの3段階を選択可能
コンテキストウィンドウ — 100万トークン（書籍約15冊分）
ARC-AGI-2スコア — 77.1%（前世代31.1%から46ポイント改善）
料金 — 入力$2/出力$12（100万トークンあたり）

特に注目すべきはARC-AGI-2のスコア改善です。前世代の31.1%から77.1%へと、ほぼ2.5倍に跳ね上がっています。これは単一世代での推論性能向上としてフロンティアモデル史上最大の改善幅です。つまり「ちょっと賢くなった」じゃなく、「推論力が別次元に進化した」と言っていいレベルですね。

ARC-AGI-2は、AIの「汎用的な推論能力」を測るベンチマークです。パターン認識や抽象的な問題解決力を評価するもので、単なる暗記では解けない問題が出題されます。ここでの大幅改善は、Gemini 3.1 Proが「考える力」そのものを強化したことを意味しています。

3段階推論モード完全ガイド——LOW・MEDIUM・HIGHの使い分け

Gemini 3.1 Pro最大の目玉が、3段階の思考レベル（Thinking Level）です。イメージとしては、車のギアチェンジに近いですね。街中の運転にはローギアで十分、高速道路ではハイギアが必要——AIの「考える深さ」をタスクに合わせて切り替えられるんです。

それぞれのモードの特徴を整理してみましょう。

モード	推論の深さ	向いているタスク	コスト
LOW	軽量・高速	テキスト要約、分類、定型処理	最安（思考トークン70%以上削減）
MEDIUM	前世代HIGHと同等	コード生成、分析、一般的な推論	中程度
HIGH	Deep Think Mini相当	数学、科学、複雑な推論	最大（フル推論）

ここで驚くのが、MEDIUMモードだけで前世代Gemini 3.0 ProのHIGHモードと同等の推論力があるという点です。つまり、ほとんどの用途ではMEDIUMで十分すぎる性能が出るんです。

Python SDKでの実装はとてもシンプルです。

from google import genai
from google.genai import types

client = genai.Client()

# 日常タスク（要約、分類など）→ LOW
response = client.models.generate_content(
    model='gemini-3.1-pro-preview',
    contents='この文章を3行で要約して',
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level=types.ThinkingLevel.LOW
        )
    )
)

# 複雑な推論が必要なタスク → HIGH
response = client.models.generate_content(
    model='gemini-3.1-pro-preview',
    contents='このアルゴリズムの計算量を証明して',
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
            thinking_level=types.ThinkingLevel.HIGH
        )
    )
)

実践的な運用指針としては、日常タスクの80%をLOW/MEDIUMに設定し、複雑なタスクの20%のみHIGHにすることで、APIコストを50〜70%削減できます。「全部HIGHで使う」のは、高速道路で常にアクセル全開にしているようなもの。燃費が悪いだけですよね。

ベンチマーク徹底比較——Claude Opus 4.6・GPT-5.3とのガチ対決

「で、結局どれが一番すごいの？」——これが一番気になるところですよね。主要ベンチマークの結果を一覧で見てみましょう。

ベンチマーク	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.3-Codex
ARC-AGI-2（推論力）	77.1%	68.8%	—
GPQA Diamond（科学）	94.3%	—	—
MMMLU（知識全般）	92.6%	—	—
SWE-Bench（コード修正）	80.6%	—	—
Terminal-Bench 2.0	68.5%	—	77.3%
GDPval-AA（Elo）	1,317	1,633	—
LiveCodeBench Pro	2,887 Elo	—	—

数字だけ見るとGemini 3.1 Proが圧倒的に見えますが、実はそう単純ではありません。ベンチマーク結果を正しく読み解くポイントが3つあります。

Geminiが圧勝する領域 — 汎用的な推論、科学知識、数学。ARC-AGI-2やGPQA Diamondで首位
Claudeが優位な領域 — エキスパートレベルのタスク品質とツール使用統合。GDPval-AAで1,633 Elo対1,317 Eloと大差。人間の評価者はClaudeの出力を一貫して好む傾向があります
GPTが優位な領域 — ターミナルベースのコーディング。Terminal-Bench 2.0で77.3%対68.5%とGPT-5.3-Codexがリード

ベンチマークの落とし穴

ベンチマークスコアと実際の使い心地は必ずしも一致しない
人間の評価者はClaude Opus 4.6の出力を一貫して好む（洗練さ・ニュアンス・文脈適切性）
「数字が高い＝自分にとってベスト」ではなく、タスクとの相性で選ぶのが正解

僕自身も実感していますが、Claude Codeで開発しているときの「コードの意図を汲んでくれる感」は、ベンチマーク数値には表れない価値です。逆に、大量のドキュメントを読み込ませるリサーチ作業では、Geminiの100万トークンコンテキストが圧倒的に便利。ベンチマークは参考にしつつも、自分のタスクで試して判断するのが一番です。

料金とコスト最適化——Opus 4.6の7分の1で使える推論力

性能面でトップクラスなのに、料金が圧倒的に安い。ここがGemini 3.1 Proの最大の武器かもしれません。

モデル	入力（/100万トークン）	出力（/100万トークン）	コスパ指数
Gemini 3.1 Pro	$2	$12	★★★★★
Claude Sonnet 4.6	$3	$15	★★★★
GPT-5.2	$2.50	$10	★★★★
Claude Opus 4.6	$15	$75	★★★

Claude Opus 4.6は入力$15/出力$75なので、Gemini 3.1 Proはおよそ6〜7分の1の料金で使えます。もちろんOpusにはOpusの価値（エキスパート品質の出力、ツール使用の統合力）がありますが、「Opusほどの品質は不要だけど、しっかり推論してほしい」場面ではGemini 3.1 Proが最適解になります。

さらにコスト最適化のテクニックがあります。

推論モードの使い分け — LOWモードで思考トークンコストを70%以上削減
コンテキストキャッシュ — 繰り返し使うプロンプトをキャッシュして最大75%のコスト削減
タスクルーター実装 — 簡単なタスクはLOW、中程度はMEDIUM、複雑な推論のみHIGHに自動振り分け

タスクルーターの考え方はシンプルです。APIリクエストの前に「このタスクはどのレベルの推論が必要か？」を判定するロジックを挟む。たとえば、テキスト分類や要約はLOW、コード生成や分析はMEDIUM、数学の証明やマルチステップの推論はHIGH——この振り分けだけで、月間APIコストが半分以下になることも珍しくありません。

ちなみにClaude APIにも推論量の制御機能があります。thinking: {type: 'adaptive'} + output_config: {effort: 'high'} で4段階（max/high/medium/low）の制御が可能。Geminiが3段階、Claudeが4段階と、「AIに考える量を指示する」時代になっています。

実務での使い分け戦略——タスク別に最適なAIモデルを選ぶ

ここからが一番実践的なパートです。「結局、何にどのモデルを使えばいいのか？」の答えを、僕の普段の使い方をベースにお伝えします。

結論から言うと、「1つのモデルで全部やる」時代は終わりました。タスクの特性に合わせてモデルを切り替える「AI複数使い」が、これからのスタンダードです。

タスク別の推奨モデルを整理します。

タスクの種類	推奨モデル	理由
コーディング（設計・実装）	Claude Code	コードの意図理解・ツール統合が最優秀
ターミナル操作・自動化	GPT-5.3-Codex	Terminal-Bench 77.3%で首位
大量ドキュメントのリサーチ	Gemini 3.1 Pro	100万トークン＋コスト最安
数学・科学の推論	Gemini 3.1 Pro (HIGH)	ARC-AGI-2で77.1%、GPQA 94.3%
ライティング・企画	Claude Opus 4.6	出力品質の洗練さ・ニュアンスが最優秀
日常的な質問応答	Gemini 3.1 Pro (LOW)	コスト最小で十分な品質

僕自身の運用を具体的に言うと、こんな感じです。

開発作業 — Claude Code（Mac mini M4 Proで24時間稼働）がメイン。コードの文脈を理解してくれる深さが段違い
福祉事業のドキュメント整理 — Geminiの100万トークンコンテキストに複数の資料を放り込んで、横断的に要約・分析
ブログ記事のリサーチ — Gemini 3.1 Pro (MEDIUM)で広く情報を集めて、記事の骨子を作る
最終的な文章の仕上げ — Claudeの「人間っぽい」出力で品質を引き上げる

AIツールの使い分けは、料理における包丁の使い分けと同じです。出刃包丁で刺身は切れないし、柳刃包丁で魚をさばくのは大変。目的に合った道具を選ぶだけで、同じ食材からでも出来上がりの品質が変わります。

複業スタイルで異なるタスクに異なるAIを使っている実感として、タスク特性に応じた使い分けは、作業時間の短縮とコスト削減の両方に直結します。月のAI投資は小さくない金額ですが、正しく使い分ければそれ以上のリターンが確実にあります。

やらないと損する最悪の未来

「別にAIは1つで十分」「今使ってるのが一番」——その考え方、そろそろ危険かもしれません。

AIモデルの進化スピードは、もう人間が想像する以上に速いです。実際、僕がAIコーディングエージェントの比較記事を公開した翌日にGemini 3.1 Proがリリースされました。昨日の最適解が、今日の次善策になる。それくらいのスピード感です。

1つのモデルだけに依存していると、そのモデルが苦手なタスクで無駄なコストと時間を使い続けることになります。また、料金改定やAPIの仕様変更があったときに、代替手段を持っていないと身動きが取れなくなります。AI複数使いのリテラシーは、2026年のエンジニアにとって必須スキルになりつつあります。

この記事を書いている理由

僕は普段からClaude MAX + ChatGPT Pro + Google Workspaceなどそれぞれのサブスクを維持して、Mac mini M4 Pro上でAIエージェントを24時間稼働させています。月々のAI投資はそこそこの金額ですが、それだけ投資しているからこそ見えるものがあります。

AIコーディングエージェントの比較記事を公開した2月19日、まさにその同日にGemini 3.1 Proがリリースされました。「比較記事を書いた日にゲームチェンジャーが出る」——AIの進化スピードを身をもって体感した瞬間でした。だからこそ、この情報をいち早く整理して届けたいと思ったんです。

僕自身が複業スタイル（CTO + フリーランス + 個人事業）の中で、タスクごとにAIを使い分ける試行錯誤をしてきたからこそ伝えられる「使い分けのリアル」があると思っています。

まとめ：「1つのモデルで全部やる」時代は終わった

Gemini 3.1 Proの登場で、AIモデルの勢力図が大きく変わりました。改めてポイントを整理します。

Gemini 3.1 Pro — コスパ最強の汎用モデル。3段階推論モードでコスト最適化も自由自在
Claude Opus 4.6 — エキスパート品質の出力とツール統合力。「仕上げ」に最強
GPT-5.3-Codex — ターミナルベースのコーディングで首位。自動化・CI/CD向き

大事なのは「どれが一番すごいか」ではなく、「自分のタスクに何が合っているか」です。推論モードの使い分けだけでAPIコストを50〜70%削減できるように、ちょっとした知識と工夫で成果が大きく変わります。

今日からできるアクション

Gemini 3.1 ProのAPIキーを取得して、LOWモードで簡単なタスクを試してみる
普段使っているAIで「苦手だな」と感じるタスクを洗い出す
苦手タスクだけ別モデルに切り替えて、品質の違いを体感する
推論モードの使い分けで、月間APIコストがどれくらい変わるか計測してみる

AI選びで迷ったら、まず「今やりたいタスクは何か？」から考えてみてください。答えは自然と見えてきますよ。もし使い分けで悩んだら、コメントやSNSで気軽に聞いてくださいね。

Gemini 3.1 Pro完全ガイド｜3段階推論モードとClaude・GPTとの使い分け

Gemini 3.1 Proとは？——「.1刻み」アップデートの衝撃

3段階推論モード完全ガイド——LOW・MEDIUM・HIGHの使い分け

ベンチマーク徹底比較——Claude Opus 4.6・GPT-5.3とのガチ対決

料金とコスト最適化——Opus 4.6の7分の1で使える推論力

実務での使い分け戦略——タスク別に最適なAIモデルを選ぶ

やらないと損する最悪の未来

この記事を書いている理由

まとめ：「1つのモデルで全部やる」時代は終わった

Claude Code Security とは？｜AI脆弱性検出の実力と限界

CLAUDE.md の書き方完全ガイド｜実際のAIエージェントプロジェクト設定を公開して解説

AIの最新記事8件

Perplexity Computer完全ガイド｜19のAIを同時に動かすマルチエージェントの全貌

GitHub Agent HQ徹底解説｜Claude×Codex×Copilotを同時に使いこなす

AI蒸留攻撃とは？Claudeを狙った手口と今すぐできる防御策5選

Claude Coworkプラグイン完全ガイド｜業務自動化の始め方と活用法

Cursor 2026年2月大型アップデート徹底解説｜Claude Codeと比較検証

IBM株310億ドル消失｜Claude CodeのCOBOL自動変換がエンジニアに突きつけるチャンスとリスク

AIラッパー企業の90%が消える？｜Google VP警告から学ぶ個人開発者の差別化戦略

Claude Coworkとは？AIエージェントの全貌と個人開発者が学べること