Claude Code メインの僕が Codex Spark と Gemini 3 を使ってみた感想

2026年2月15日
2026年2月25日
AI

「結局どのAIコーディングツールがいいの？」——この質問、最近よく聞かれます。で、正直に言うと僕の答えはいつも同じで「Claude Code」なんですが、それだけ言っても説得力がない。

ということで、普段 Claude Code をメインに使っている僕が Codex Spark と Gemini 3 をそれぞれ実際に触ってみました。この記事は、その素直な感想です。スペック比較やベンチマークスコアの話は最小限にして、「自分の仕事で使ったらどうだったか」を中心に書きます。

僕は福祉事業のIT全般をCTOとして担当しつつ、個人事業で開発受託やAI活用のコンサルもやっています。Mac mini M4 Pro（24GB）で24時間稼働のAIエージェントシステムを運用していて、このシステム自体を Claude Code で作りました。そういう立場からの感想だと思って読んでください。

1 僕の普段の開発環境: Claude Code + Ghostty + tmux
2 Codex Spark を使ってみた感想
3 Gemini 3 を使ってみた感想
4 体験ベースの比較表
5 結論: 適材適所だけど、メインは変わらなかった
6 AIコーディングツール選びを後回しにすると何が起きるか
7 この記事を書いた理由
8 まとめ: まずは1つ、自分のプロジェクトで試してみる

僕の普段の開発環境: Claude Code + Ghostty + tmux

まず前提として、僕がどういう環境で開発しているかを書いておきます。ここがわからないと、後の感想がピンとこないと思うので。

使っているもの:

Claude Code（Opus 4.6）— Claude MAX $200/月で契約
Ghostty ターミナル + tmux でウィンドウ分割
VSCode はほぼ起動しない

tmux のウィンドウを3つくらいに分けて、1つ目で Claude Code、2つ目でサーバー起動、3つ目でログ監視。これで十分回ります。

Claude Code で作ったもの:

AIエージェントシステム（TypeScript モノレポ、npm workspaces、SQLite）
Discord Bot（ニュース配信、コンタクト管理、定期タスク通知）
Web ダッシュボード（React + Express）
MV自動生成機能
Google Slides 自動生成
ブログ記事作成パイプライン

これらを全部ターミナルの中だけで開発しています。エディタを開くのは、たまにデザインの微調整をする時くらい。

ワークフロー:

Claude Code の Plan Mode で設計を詰める
CLAUDE.md にプロジェクトルールを書いておく（コーディング規約、セキュリティルール、ディレクトリ構成など）
実装はサブエージェントで並列実行
バックグラウンド実行で「やっといて」と放置

このワークフローが確立しているので、正直なところ「他のツールに乗り換える理由がない」というのが出発点です。でも、それだとただのポジショントークになるので、実際に触ってみました。

Codex Spark を使ってみた感想

OpenAI が2025年にリリースした Codex Spark。ChatGPT Pro（$200/月）のサブスクで使えるコーディングエージェントです。僕は ChatGPT Pro も契約しているので、追加費用なしで試せました。

良かったこと: とにかく速い

第一印象は「速い」。これは本当にそう。1,000 tok/s という速度は、体感レベルで違いがわかります。

例えば「この関数のバリデーションにメールアドレスのチェックを追加して」みたいな小さい修正。Claude Code だと数秒考えてから出力が始まるところ、Codex Spark はほぼ瞬時に返ってくる。タイピングの手を止めずに済む感覚。

単純なバグ修正や、定型的な変更をバッと片付けたいときには、この速度は正直うらやましいです。

微妙だったこと: 大きなタスクで精度が落ちる

問題は、タスクが大きくなったとき。

僕の masu-agent は TypeScript モノレポで、パッケージが5つ、ファイル数は100以上あります。「agent-core の Database クラスにメソッドを追加して、それに対応する MCP ツールを mcp-db-server に追加して、discord-bot の tool-names も更新して」みたいな、3パッケージにまたがる変更を頼むと、途中で文脈が抜ける。

Claude Code だと CLAUDE.md にパッケージ間の依存関係を書いてあるので、「agent-core を先にビルドしてから mcp-db-server をビルドして」という順序も含めて理解してくれる。Codex Spark では、この「プロジェクト全体の文脈を維持しながら複数ファイルを横断する」力が弱いと感じました。

Claude Code に戻った理由

決定的だったのは「Plan Mode がない」こと。

僕の開発スタイルは、まず計画を立てさせて、それをレビューしてから実装に入る。計画と実装は別のステップとして明確に分ける。これをやらないと、AIは「今動くコード」は書けるけど、後から拡張しにくい設計になりがちです（これは Claude Code でも同じ）。

Claude Code の Plan Mode では「この変更をするには何が必要か」を先にリストアップしてくれて、僕が「OK、この方針で」と言ってから実装が始まる。この「一旦立ち止まる」ステップが、Codex Spark にはなかった。速さの代わりに、設計レビューの余地が犠牲になっている印象です。

あと、CLAUDE.md のような「プロジェクトごとのルールファイルを読ませる」仕組みが Claude Code ほど洗練されていない。セキュリティルールやコーディング規約をツールに読ませておけるのは、チーム開発でもソロ開発でもかなり大きい。

Gemini 3 を使ってみた感想

Google の Gemini 3。Flash モデルが無料で使えるのが最大の特徴です。

良かったこと: 無料枠のインパクト

Claude MAX が $200/月、ChatGPT Pro も $200/月。両方契約している僕が言うのもアレですが、月額 $0 でそこそこのAIコーディング支援が使えるのは、始めたばかりの人やサイドプロジェクトには大きい。

Web 開発に関しては WebDev Arena でもスコアが高く、フロントエンドのUI生成は得意な印象。「ランディングページをReactで作って」みたいなタスクでは、かなり良い出力が返ってきました。

仕様書の壁打ちにも使えます。「こういう機能を作りたいんだけど、技術選定どうする？」みたいなざっくりした相談を投げると、選択肢をバランスよく出してくれる。コストゼロでブレストの壁打ち相手になってくれるのは、地味にありがたい。

微妙だったこと: ターミナルエージェントとしての安定性

ターミナルでの自律エージェント的な使い方——つまり「ファイルを読んで、修正して、テストを実行して、失敗したらもう一度直して」を自動で回す使い方では、まだ安定しない場面がありました。

途中でコンテキストが途切れたり、ファイルの書き込みで意図しない変更が入ったり。Claude Code の「サブエージェントを並列で走らせて、バックグラウンドで完了を待つ」みたいな使い方を Gemini 3 で再現しようとすると、まだ厳しい。

コードの品質にもバラつきがあって、同じプロンプトを投げても出力の質が安定しないことがありました。特に TypeScript の型定義まわりで「any を使っちゃう」ことが多い印象。Claude Code は strict mode を理解した上で型を書いてくれるので、ここは差を感じます。

Claude Code に戻った理由

Gemini 3 は「ちょっと聞きたいとき」にはいいけど、「1日任せたい」ツールではなかった、というのが正直な感想です。

僕はCTOの仕事、フリーランス案件、個人事業を並行して回しています。AIコーディングツールに求めているのは「自走してくれること」。つまり、指示を出したらある程度の完成度で戻ってくること。この「任せられる度」では、まだ Claude Code の方が上だと感じました。

体験ベースの比較表

スペック表ではなく、「実際にやってみてどうだったか」で比較します。

やりたいこと	Codex Spark	Claude Code	Gemini 3
小さなバグ修正	◎ 最速	○	○
10ファイル以上のリファクタリング	△	◎	△
設計から実装まで一気通貫	×	◎ Plan Mode	△
フロントエンドUI生成	○	○	◎ WebDev Arena高スコア
無料で使いたい	× ($200/月)	× ($100/月〜)	◎ Flash無料
「やっといて」と放置したい	×	◎ バックグラウンド実行	×

補足しておくと、この表は僕の使い方での評価です。VSCode ベースの開発がメインの人なら Codex Spark の評価は上がるし、コストを最優先にするなら Gemini 3 一択になる。自分のワークフローに合うものを選ぶのが一番です。

6つのAIコーディングツールをもっと幅広く比較した記事も書いています。Cursor、GitHub Copilot、Devin なども含めて知りたい方はこちらをどうぞ: AIコーディングエージェント使い分けガイド2026｜6大ツール徹底比較

結論: 適材適所だけど、メインは変わらなかった

3つ使ってみた結論としては、「用途によって最適なツールは違うが、メインを張れるのは Claude Code」 というのが僕の実感です。

小さい修正をサッと片付けたい → Codex Spark が速い
コストをかけずに試したい → Gemini 3 の無料枠
プロジェクト全体を任せて、設計から実装まで一気にやりたい → Claude Code

結局、開発の生産性を決めるのは「ツールの最大出力」ではなくて「自分のワークフローとの相性」です。僕の場合はターミナル完結 + Plan Mode + CLAUDE.md という組み合わせが完全にハマっているので、メインは変えない。でも、Codex Spark の速度や Gemini 3 の無料枠は「知っておいて損はない」選択肢です。

AIコーディングツール選びを後回しにすると何が起きるか

「どのツールがいいか決められないから、とりあえず保留」——これが一番もったいない。

AIコーディングツールは、使い始めた日から差がつきます。なぜなら、ツールの実力以上に「ツールとの付き合い方」で生産性が変わるから。CLAUDE.md にどんなルールを書くか、Plan Mode でどう設計を詰めるか、プロンプトにどんな制約を入れるか。これは使い続けないと身につかないノウハウです。

僕が masu-agent を3ヶ月で作れたのは、Claude Code の性能だけじゃなく、「失敗して学んだプロンプトの書き方」の蓄積があったから。macOS の pgrep 問題でハマった経験が、次から「macOS の制約をプロンプトに書く」習慣になった。この蓄積は、始めるのが早いほど有利です。

半年後に「やっぱり使おう」と思ったとき、周りはすでに半年分のノウハウを持っている。その差は、ツール自体の進化よりもずっと大きい。

この記事を書いた理由

ネットで「AIコーディングツール比較」と検索すると、スペック表とベンチマークスコアを並べた記事がたくさん出てきます。でも、「実際に使ってどうだったか」を書いている記事は少ない。

僕は SES エンジニアからキャリアをスタートして、人材教育で550名以上のキャリア面談を経験し、今は CTO と個人事業の複業スタイルで働いています。毎日コードを書く立場から言うと、スペック表だけでは選べない。1,000 tok/s が速いのはわかる。でも「10ファイルのリファクタリングで文脈が抜ける」は使ってみないとわからない。

だから、この記事はあえて「Claude Code ユーザーの偏ったレビュー」として書きました。偏っているからこそ、同じような環境の人には参考になるはず。違う環境の人には「こういう視点もあるのか」と気づきのきっかけになれば嬉しいです。