中国発オープンソースAIが激安で最強クラスに|MiniMax M2.5・GLM-5のコスト革命

  • 2026年2月15日
  • 2026年2月16日
  • AI
AI 中国発オープンソースAIが激安で最強クラスに

DeepSeekの衝撃から1年 — 中国オープンソースAIの第二波が来た

「AIの性能を上げるには、とにかく金がかかる」——そんな常識が、いよいよ本格的に崩れ始めています。

2025年初頭、DeepSeek R1が開発コスト約29.4万ドル(ChatGPTの1/100以下)でフロンティア級の性能を叩き出し、世界中の開発者が騒然となりました。あれから約1年。2026年2月、中国のAI企業2社が相次いで「次の衝撃」を放っています。

MiniMaxのM2.5と、Zhipu AIのGLM-5です。

どちらもMITライセンスの完全オープンウェイトモデル。しかもベンチマークではClaude Opus 4.6やGPT-5.2に肩を並べる——いや、一部では上回るスコアを出しています。僕自身、CTOとしてAIツールの選定をする立場だから、このニュースはかなりインパクトがありました。

正直なところ、DeepSeekのときは「すごいけど、まだ実用レベルでは不安がある」という印象でした。でも今回の2モデルは、SWE-BenchやHumanity’s Last Examといった実務寄りのベンチマークでトップクラスの成績を出しています。しかもコストは桁違いに安いんですよね。

この記事では、MiniMax M2.5とGLM-5の実力を具体的な数値で比較しながら、「AI開発のコスト常識がどう変わるのか」を整理していきます。エンジニアもそうでない人も、2026年のAI選びに必ず役立つ内容になっているはずです。

MiniMax M2.5の実力 — Claude Opus級の性能をコスト1/20で実現する仕組み

まず、MiniMax M2.5の何がすごいのかを整理しましょう。

M2.5は230BパラメータのMoE(Mixture of Experts)アーキテクチャを採用しています。MoEとは、モデル全体のパラメータのうち、推論時に一部のエキスパートだけを活性化させる仕組みです。M2.5の場合、230Bのうち実際に動くのはわずか10B。全体の4%しか使わないから、巨大モデルなのに推論コストが劇的に低いんですよね。

ベンチマークの数字を見てほしいんですが、これがなかなかすごいです。

  • SWE-Bench Verified: 80.2%(Claude Opus 4.6は80.8%で、差はわずか0.6ポイント)
  • Multi-SWE-Bench: 51.3%(こちらは首位)
  • BrowseComp: 76.3%
  • BFCL: 76.8%
  • OpenCode: 76.1%

SWE-Benchは実際のGitHubイシューを解決できるかを測るベンチマークで、エンジニアにとっては一番リアリティのある指標です。ここでClaude Opus 4.6に肉薄しているのは素直にすごいですよね。しかもMulti-SWE-Bench(複数リポジトリをまたぐタスク)では1位を取っています。

そしてコスト面。M2.5のAPI価格は入力$0.30/Mトークン、出力$1.20〜$2.40/Mトークンです。Claude Opus 4.6の出力価格が$60〜75/Mトークンだから、約30〜60倍の価格差があります。ざっくり言えば、同じ作業をさせたときのコストが1/20〜1/60になる計算です。

1時間連続で推論を回しても約1ドル。4つのAIエージェントを年間フル稼働させても約1万ドル。個人開発者やスタートアップにとって、これは現実的に「使い倒せる」価格帯に入ってきました。

MiniMax社自身も、社内の新規コードの80%がM2.5で生成されていると公表しています。SWE-Benchタスクの完了時間は22.8分で、前モデルから37%短縮。自社で使い倒して性能を実証しているのは説得力がありますよね。

コンテキストウィンドウも204,800トークンと十分に広いです。大規模なコードベースを丸ごと読み込ませて作業させるような使い方にも対応できます。

GLM-5が示した新境地 — 米国チップなしでフロンティアモデルは作れる

もう1つの衝撃はZhipu AIのGLM-5です。こちらはM2.5とはまた違う意味でインパクトがあります。

GLM-5は744Bパラメータ(40B活性化)のMoEモデル。28.5兆トークンという膨大なデータで訓練されています。そして最大のポイントは、Huawei Ascendチップのみで訓練されたということです。

これが何を意味するか。米国の半導体規制により、中国企業はNVIDIAの最新GPUを入手できません。にもかかわらず、国産チップだけでフロンティア級のモデルを作り上げました。技術的に見ても、地政学的に見ても、これは大きな転換点ですよね。

ベンチマークもかなり強いです。

  • Humanity’s Last Exam(ツール使用): 50.4(Claude Opus 4.5の43.4、GPT-5.2の45.5を上回る)
  • SWE-Bench Verified: 77.8%
  • AIME 2026 I: 92.7%
  • HMMT Nov 2025: 96.9%

特にHumanity’s Last Examは、各分野の専門家が作った「人類最後の試験」とも呼ばれる超高難度ベンチマークです。ここでClaude Opus 4.5とGPT-5.2を上回っているのは注目に値しますよね。幻覚率(ハルシネーション)も前モデルから35ポイント改善されており、信頼性も着実に上がっています。

さらに面白いのが、GLM-5の訓練に使われた新しいRL(強化学習)フレームワーク「Slime」です。これもオープンソースで公開されており、Qwen3、DeepSeek V3、Llama 3といった他のモデルにも適用できます。つまり、GLM-5の成果は単体のモデルに留まらず、オープンソースAIエコシステム全体を底上げする可能性がありますよね。

API価格は入力$0.80〜$1.00/Mトークン、出力$2.56〜$3.20/Mトークンで、M2.5よりは高いですがClaude Opus 4.6と比べれば圧倒的に安いです。推論速度は約66 TPS(tokens per second)で、M2.5のLightningバージョン(100 TPS)には及びませんが、実用上は十分な速度です。

具体的なコスト比較 — 年間運用でどれだけ差が出るか

ここからは、実際にどれくらいコストが変わるのかを具体的に比較してみましょう。僕がCTOとして予算を組むときに使うような、リアルな試算です。

API料金の直接比較

モデル 入力($/Mトークン) 出力($/Mトークン) コスト比率
Claude Opus 4.6 $15 $60〜75 基準
MiniMax M2.5 $0.30 $1.20〜$2.40 約1/30〜1/50
GLM-5 $0.80〜$1.00 $2.56〜$3.20 約1/20〜1/25

この価格差は、運用規模が大きくなるほど効いてきます。

年間運用コストのシミュレーション

たとえば、AIコーディングエージェントを4台、1日8時間稼働させるケースを考えてみましょう。

  • Claude Opus 4.6: 月額数千ドル〜(サブスクリプション or API従量課金)
  • MiniMax M2.5 API: 1時間約1ドル × 8時間 × 4台 × 365日 ≒ 年間約11,680ドル
  • MiniMax M2.5 セルフホスト: GPU4枚構成で初期投資は必要ですが、月額のAPI費用がゼロになります

M2.5のキャッシュ入力は$0.03/Mトークンと激安なので、同じコードベースを繰り返し分析させるような使い方ではさらにコストが下がります。

コスト以外の比較ポイント

ただし、安ければいいという話でもありません。用途によって選ぶべきモデルは変わります。

  • コーディング重視: M2.5(SWE-Bench 80.2%、Multi-SWE-Bench首位)
  • 高度な推論・知識: GLM-5(Humanity’s Last Exam 50.4、数学系ベンチマークで圧倒的)
  • 速度重視: M2.5-Lightning(100 TPS、TTFT中央値1.52秒)
  • 信頼性・安定性重視: Claude Opus 4.6(実績と信頼のAnthropic)

僕個人の判断としては、「本番のクリティカルな処理はClaude、量をこなすバッチ処理やプロトタイピングはM2.5」という使い分けが現実的だと思っています。全部をオープンソースに置き換えるのではなく、コストと信頼性のバランスで選ぶのがエンジニアの腕の見せどころですよね。

開発者が今すぐ試せる導入ガイド — vLLM・API・Ollamaでの始め方

「面白そうだけど、どうやって使うの?」という人のために、具体的な導入方法をまとめておきます。

方法1: API経由で使う(最も手軽)

MiniMaxとZhipu AIはそれぞれAPIを提供しています。OpenAI互換のインターフェースなので、既存のコードをほぼそのまま使い回せますよ。エンドポイントURLとAPIキーを差し替えるだけで動きます。

方法2: vLLMでセルフホスト(GPU4枚〜)

M2.5をローカルで動かすなら、vLLMが公式推奨です。GPU4枚構成のコマンドはこうなります。

SAFETENSORS_FAST_GPU=1 vllm serve MiniMaxAI/MiniMax-M2.5 \
  --trust-remote-code \
  --tensor-parallel-size 4 \
  --enable-auto-tool-choice \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2_append_think

8GPU構成でExpert Parallelを有効にする場合はこちらです。

SAFETENSORS_FAST_GPU=1 vllm serve MiniMaxAI/MiniMax-M2.5 \
  --trust-remote-code \
  --enable_expert_parallel \
  --tensor-parallel-size 8

起動後は http://localhost:8000/v1/chat/completions にリクエストを送るだけです。推奨パラメータは temperature=1.0, top_p=0.95, top_k=40 になります。

方法3: Ollamaで手軽にローカル実行

「GPU構成とか面倒だな」という人には、Ollamaが一番ラクです。

ollama run minimax-m2.5

これだけでローカル実行できます。Ollamaのライブラリに登録済みなので、モデルのダウンロードから起動まで全自動です。ただし、フルサイズで動かすにはそれなりのVRAMが必要なので、量子化バージョンを使うか、クラウドGPUインスタンスを借りるのが現実的ですね。

SGLangも対応済み

vLLMの他に、SGLangでもデプロイ可能です。複数の推論フレームワークに対応しているのは、オープンソースモデルの大きな強みですよね。特定のベンダーにロックインされないから、インフラの選択肢が広がります。

AI開発のコスト常識はこう変わる — エンジニアとビジネスが取るべきアクション

最後に、この流れが僕たちの仕事にどう影響するかを考えてみましょう。

The Decoderが使った表現が秀逸でした——「Intelligence too cheap to meter(安すぎて計量不要な知能)」。これは原子力発電の黎明期に使われた「安すぎて計量不要な電力」をもじったものです。AIがインフラ化する時代が、本当に目の前に来ていますよね。

エンジニアが取るべきアクション

  • マルチモデル戦略を前提に設計する: 1つのAIモデルに依存するアーキテクチャはリスクです。OpenAI互換APIを使って、モデルを切り替え可能にしておきましょう
  • コスト最適化のスキルを磨く: 「どのタスクにどのモデルを割り当てるか」というルーティング設計が、これからのAIエンジニアの腕の見せどころになります
  • セルフホストの選択肢を持つ: API依存だけでなく、vLLMやOllamaでローカルデプロイできる知見を持っておくと、コスト交渉力が上がりますよ

ビジネスサイドが取るべきアクション

  • AI導入のROIを再計算する: 「AIは高い」という前提で見送っていたプロジェクトが、コスト1/20で成立するかもしれません
  • 小さく試す: M2.5のAPI価格なら、月数ドルで実験できます。まずはプロトタイプを作って効果を検証してみましょう
  • 社内AI人材の育成: ツールが安くなった分、使いこなせる人間の価値が相対的に上がります。非エンジニアのAIリテラシー向上に投資するのがおすすめです

僕がCTOを務めている福祉事業の現場でも、AIの活用コストが下がったことで「やれること」が一気に増えた実感があります。ITの力を非IT領域に持ち込む「異世界転生」をやっている身としては、オープンソースAIのコスト革命は本当にありがたいですね。高い月額費用を払えない中小企業や福祉事業こそ、こういう選択肢が必要なんです。

MiniMax M2.5とGLM-5が証明したのは、「フロンティア級のAI性能は、もう一部の巨大企業の特権ではない」ということです。MITライセンスで誰でも使えて、コストは従来の1/20。

AIを「使うかどうか」の議論はもう終わりました。これからは「どう使い分けるか」の時代です。まずはM2.5のAPIを叩いてみることから始めてみてください。その1ドル未満の実験が、あなたのAI開発の常識を変えるきっかけになるかもしれませんよ。