Benchmark

Page 1 of 1

(10 items)

tool Jul 17, 2026

最強のAIであっても画像を「見誤る」：PerceptionBenchがもたらす視覚的現実への衝撃現代の大規模言語モデルが複雑なコードさえ書けるようになった今、画像を見て理解するこ …

tool May 29, 2026

主観的な推測にサヨナラ！AI 生成画像の品質をどう評価する？Qwen-Image-Bench と専任審判 Q-Judger を徹底解析画像生成 AI 技術が普及するにつれ、避けら …

tool Dec 2, 2025

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトッ …

DMflow.chatで、AI駆動型カスタマーサービスの新しい時代を体験しましょう。

tool Nov 5, 2025

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールで …

tool Oct 21, 2025

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴び …

tool Sep 10, 2025

私たちはAIが全能だと思っていましたが、単純なアナログ時計がGoogle GeminiやOpenAI GPT-5などのトップモデルを打ち負かしました。最新のClockBenchベ …

DMflow.chatで、AI駆動型カスタマーサービスの新しい時代を体験しましょう。

tool Sep 2, 2025

AIは十分に「従順」ではない？美団は、新しい指示追従評価ベンチマークであるMeeseeksをリリースしました。独自の多ターンエラー修正メカニズムを通じて、AIモデルが複雑な指示を …

tool Aug 21, 2025

AIのコーディング能力はますます強力になっていますが、真の王者は誰なのかをどうやって知ることができるのでしょうか？TencentのHunyuanが発表し …

tool Aug 14, 2025

AI界の競争は白熱しています！Design Arenaというベンチマークテストプラットフォームが、大規模なクラウド投票を通じて、プログラミング、ウェブサイト構築、画像、動画、さら …

DMflow.chatで、AI駆動型カスタマーサービスの新しい時代を体験しましょう。

tool Aug 14, 2025

AIはもはや冷たい機械ではありません。最新のEQ-Bench 3（感情知能評価）ランキングが発表されましたが、その結果はあなたを驚かせるかもしれません。本記事では、このランキング …