AI界の知能競争に驚くべき転換点が訪れました!最新のリークされた実データによると、OpenAI、Google、Anthropicのトップモデルは、異なる知能テストでそれぞれ勝敗を分けています。本記事では、29のAIモデルの完全なIQランキングを提示し、このデータの背後にある知られざる真実を深く分析します。
AI界の「オリンピック」、ルールはあなたが思うより複雑
私たちは皆、唯一のチャンピオンを探すことに慣れています。人工知能の競争においても、私たちは知りたいのです:最も賢いAIは誰なのか? Tracking AI というウェブサイトが、定期的な知能テストを通じてこの問題に答えようとしています。しかし、最新の流出した実データによると、答えは単純なランキングよりもはるかに複雑であることがわかりました。
この競争には一つの種目だけでなく、少なくとも二つの異なる「テスト用紙」があります:一つは Offline Test、もう一つは Mensa Norway テストです。異なるAIは、異なるテスト用紙で、全く異なるパフォーマンスを見せることがあります。これは、あるアスリートが100メートル走のチャンピオンであっても、マラソンでは必ずしも優勝できないのと同じです。
完全AI IQランキング:29モデルの実力を一度に理解
この最新データに基づく完全なランキングでは、各モデルの二つのテストにおけるスコアを併記しています。比較しやすいように、主に Offline Test のスコアで順位付けしていますが、Mensa Norway テストでの驚くべき逆転劇にもぜひ注目してください。
| 順位 (Offline Test順) | AIモデル | Offline Test IQ | Mensa Norway IQ |
|---|---|---|---|
| 1 | OpenAI GPT-5 Pro (Vision) | 123 | 136 |
| 2 | Gemini 2.5 Pro | 118 | 137 |
| 3 | Claude-4 Opus | 118 | 117 |
| 4 | OpenAI GPT-5 Pro | 116 | 148 |
| 5 | OpenAI o3 | 116 | 135 |
| 6 | OpenAI o3 Pro | 109 | 133 |
| 7 | Claude-4 Sonnet | 107 | 119 |
| 8 | Grok-4 | 103 | 121 |
| 9 | OpenAI o3 Pro (Vision) | 100 | 104 |
| 10 | Gemini 2.5 Pro (Vision) | 99 | 96 |
| 11 | OpenAI o3 (Vision) | 97 | 94 |
| 12 | OpenAI GPT-5 | 93 | 115 |
| 13 | OpenAI o4 mini | 90 | 112 |
| 14 | Gemini 2.5 Flash Thinking | 90 | 87 |
| 15 | Claude-4 Sonnet (Vision) | 88 | 93 |
| 16 | OpenAI GPT-5 (Vision) | 87 | 67 |
| 17 | OpenAI o4 mini high | 87 | 99 |
| 18 | DeepSeek R1 | 86 | 101 |
| 19 | OpenAI o4 mini (Vision) | 84 | 79 |
| 20 | Claude-4 Opus (Vision) | 82 | 82 |
| 21 | Llama 4 Maverick | 82 | 100 |
| 22 | Llama 4 Maverick (Vision) | 82 | 75 |
| 23 | DeepSeek V3 | 79 | 92 |
| 24 | Mistral | 74 | 85 |
| 25 | GPT-4o | 69 | 85 |
| 26 | Grok-4 (Vision) | 68 | 82 |
| 27 | Bing Copilot | 67 | 86 |
| 28 | GPT-4o (Vision) | 65 | 64 |
| 29 | OpenAI GPT-5 Thinking | 64 | 79 |
詳細はウェブサイトの最新情報をご参照ください
データの背後にある視点:あなたはこのランキングを本当に理解していますか?
順位だけを見るのは素人、その意味を理解するのが専門家です。この一見単純な表には、実はいくつかの非常に重要な視点が隠されています。
1. チャンピオンの座の「二重基準」:本当の一位は誰?
Offline Test だけを見れば、OpenAI GPT-5 Pro (Vision) が123点でトップに立ち、視覚的推論の王としてふさわしいように見えます。
しかし、Mensa Norway の欄に目を移してください。OpenAI GPT-5 Pro (言語モデル) のスコアはなんと 148 に達し、自身のもう一方のテストでのパフォーマンス(116)をはるかに超えるだけでなく、全モデル中の最高スコアです!これは何を意味するのでしょうか?それは、「最も賢い」という称号が、どの物差しで測るかによって完全に変わるということです。視覚的な空間能力を必要とするテストではあるモデルが王様になるかもしれませんが、抽象的な論理や言語的推論を試すテストでは、別のモデルが覇者となる可能性があるのです。
2. AIも「得意科目」がある?二つのテストの大きな違い
同じモデルが二つのテストで大きなスコア差を見せることは、それらが明確な「得意科目」を持っていることを明らかにしています。例えば:
- OpenAI GPT-5 Pro:Offline Test 116点、Mensa Norway 148点、実に32点もの差があります!
- Gemini 2.5 Pro:Offline Test 118点、Mensa Norway 137点、こちらも19点の差があります。
これは、Offline Test と Mensa Norway テストの重点が全く異なることを強く示唆しています。前者は図形認識や空間関係のような具象的な推論能力に重きを置いている可能性があり、これがビジョンモデル(Vision)が全般的に良いパフォーマンスを示す理由です。一方、後者は伝統的な知能テストにおける抽象論理、数列、言語理解に偏っている可能性があり、これがトップクラスの言語モデル(Verbal)が輝く理由です。
3. 視覚と言語の溝:同じモデルの異なる側面
このデータは、AI能力の「モダリティの溝」も示しています。Gemini 2.5 Pro を例にとると、その言語モデルは両方のテストでトップクラスの成績(118/137)を収めていますが、そのビジョンモデル(Vision)のスコアは(99/96)に低下します。これは、基盤となる技術が同じであっても、異なるタスク(テキスト処理 vs. 画像処理)に最適化されたモデルでは、その能力の現れ方が大きく異なることを示しています。
4. 隠れたダークホースと過小評価された選手
トップ3だけを見ていると、多くの興味深い詳細を見逃してしまいます。
- Llama 4 Maverick のOffline Testスコアはわずか82で、目立たないように見えますが、そのMensa Norwayスコアは100に達し、ランキングでそれより上位の多くのモデルを上回っています。
- DeepSeek R1 も同様で、Mensa Norwayスコア(101)もかなり立派です。
これは、一部のオープンソースモデルや二番手のモデルが、特定の推論能力において決して劣っているわけではなく、ただすべての項目で極限まで最適化されていないだけであることを示しています。特定のニーズを持つユーザーにとっては、これらの「得意科目に特化した」選手の方がコストパフォーマンスが高いかもしれません。
結論:唯一のチャンピオンはいない、より適切なツールがあるだけ
要するに、この最新の、より現実的なデータが私たちに教えてくれる重要な事実は、AIの世界には、万能で唯一のチャンピオンは存在しないということです。
AIの「知能」を単一のスコアに単純化することは、過度な単純化による誤解です。異なるモデルは異なる問題を解決するために設計されており、それぞれに専門分野があります。GPT-5 Pro (Vision) は図を見て謎を解くのに最適なパートナーかもしれませんが、GPT-5 Pro (言語モデル) は深い学術的議論や論理分析を行うためのより強力な助っ人かもしれません。
ユーザーとして私たちがすべきことは、ランキング1位のモデルを盲目的に追いかけるのではなく、自身の具体的なニーズに基づいて、どのAIが自分が必要とする「テスト会場」で最高のパフォーマンスを発揮するかを理解することです。このランキングの最大の価値は、まさにこの多様性を明らかにし、私たちが「誰が最も賢いか?」という神話から抜け出し、「誰が私に最も適しているか?」と考えるように促すことにあります。


