
DMflow.chat
廣告
DMflow.chat:智慧客服新時代,輕鬆切換真人與 AI!持久記憶、客製欄位、即接資料庫表單,多平台溝通,讓服務與行銷更上一層樓。
Meta 最新 AI 模型 Llama 4 一推出就引發軒然大波!被指控在訓練過程中「作弊」以美化評測成績。Meta 生成式 AI 副總裁親自澄清,但為何仍有疑點?本文深入探討 Llama 4 訓練爭議、官方回應,以及 AI 模型評測背後的複雜性。
最近科技圈好像又不太平靜了,對吧?主角是 Meta,也就是大家熟知的臉書母公司。他們家最新推出的 AI 大模型 Llama 4 系列,本來是備受期待的明日之星,沒想到一發布就立刻捲入了「訓練過程不當」的風暴裡。
社群媒體上吵得沸沸揚揚,核心指控是說 Meta 為了讓新發表的 Llama4Maverick 和 Llama4Scout 這兩個模型,在某些特定的基準測試(就是 AI 界的期末考啦)上看起來分數特別亮眼,竟然偷偷用了這些測試的「考題」(也就是所謂的測試集)來進行訓練。
等等,用「測試集」來訓練模型,這聽起來好像有點專業?讓我解釋一下。
想像一下,這就像是學生在大考前,偷偷拿到了完整的考卷和標準答案,然後拼命練習這些題目。等到真正考試的時候,分數當然會高得嚇人,對吧?但這樣的分數,能代表他真正的實力嗎?顯然不行。
在 AI 領域,用測試集來訓練模型,就是類似這樣的作弊行為。測試集是用來「評估」模型訓練完成後的表現好壞,看看它在面對從未見過的資料時,能不能舉一反三。如果你把答案都直接餵給它學習了,那評測就失去了意義,模型的分數也會被嚴重灌水,看起來比實際強大得多。這在業界被認為是非常不道德的行為,根本就是破壞了遊戲規則。
面對這樣的指控,Meta 當然不能坐視不管。
Meta 的生成式 AI 副總裁 Ahmad Al-Dahle 立刻就在 X(就是以前的 Twitter)上親自上陣,語氣堅定地表示,這些關於 Llama 4 訓練作弊的說法「完全沒有根據」。
他強調,測試集是用來「驗收成果」的,不是拿來「當教材」的。如果真的在測試集上訓練模型,那模型表現肯定會好得不真實,這完全違背了建立可信賴 AI 的初衷。Al-Dahle 的回應很明確:Meta 沒有做這種違反學術和業界倫理的事情。
不過,事情好像總是有那麼點曲折。
雖然 Meta 強力否認了「用測試集訓練」這項最嚴重的指控,但他們也承認,在某些任務上,公開發布的 Llama4Maverick 和 Llama4Scout 表現確實不如預期。
更有趣的是,Meta 自己也坦承,他們曾在知名的 AI 模型對戰平台 LM Arena 上,使用了一個「尚未發布的 Maverick 實驗版本」來進行測試,而這個實驗版本確實獲得了比較高的分數。嗯…這操作就有點微妙了。雖然這不完全等於用「測試集」作弊,但使用一個未公開、可能經過特別調整的「內部版本」去刷榜,無疑是為之前的作弊傳聞提供了一些「間接證據」,也難怪會引發外界的猜疑。
有眼尖的研究人員就發現,公開下載的 Maverick 版本和在 LM Arena 上運行的那個版本,在行為和反應上存在著顯著的差異。這就讓人更好奇了,這個「實驗版」到底做了什麼調整呢?
除了 LM Arena 的插曲,還有另一個讓使用者感到困惑的問題。
有些開發者反應,他們從不同的雲端服務供應商(像是 AWS、Google Cloud 或 Azure)那邊取用 Llama 4 模型時,發現模型的表現品質不太穩定,時好時壞。這又是怎麼回事呢?
Al-Dahle 對此也做出了解釋。他說:「因為我們在模型準備好之後,很快就將它們發布了,所以可以預期的是,需要幾天時間才能讓所有公開可用的版本達成一致。」他表示,團隊會持續進行 bug 修復,並與合作夥伴溝通,確保各個平台的版本能盡快同步。
這聽起來就像是我們更新手機 App 或電腦軟體一樣,剛更新完總會有些小毛病或不穩定的地方,需要一點時間讓開發者修復和優化。看來 Meta 這次發布 Llama 4 可能真的有點趕,導致版本同步上出了點小狀況。
那麼,回到最初的問題:Meta 這次到底算不算「作弊」或「偷吃步」呢?
從 Meta 官方的回應來看,他們堅決否認了最核心的指控——也就是直接使用測試集進行訓練。但他們也承認了在 LM Arena 使用了未公開的實驗版本,以及目前版本在不同雲端平台上可能存在不一致的問題。
Meta 的這番澄清,一方面是想努力維護公司在 AI 領域值得信賴的道德形象,告訴大家他們還是遵守遊戲規則的。另一方面,這次的風波也血淋淋地提醒了我們所有人:
這次 Llama 4 的訓練爭議,或許最終會隨著 Meta 持續的更新和溝通而平息。但它也確實給整個 AI 社群帶來了思考:在追求更高性能的同時,如何確保過程的透明度和結果的公信力?這恐怕是所有 AI 開發者都需要面對的課題。
常見問題解答 (FAQ) 整理:
DMflow.chat:智慧客服新時代,輕鬆切換真人與 AI!持久記憶、客製欄位、即接資料庫表單,多平台溝通,讓服務與行銷更上一層樓。
限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!(2025-0414-0421) AI 界的朋友們注意!Windsurf AI 宣布提供為期...
偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密 幾十年來,科學家們一直試圖解開海豚那複雜的「喀答聲」、「哨聲」和「脈衝聲」之謎。現在,Googl...
WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰! 厭倦了複雜的網站架設流程?WordPress 推出革命性 AI 網站建置工具,只要一句話描述你的想法,A...
AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代 厭倦了各自為政的 AI 工具嗎?Google 攜手 50 多家科技巨頭推出 Agent2Agent (A2A...
Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4! Meta 最新力作 Llama 4 系列 AI 模型正式開源!原生多模態、超長上下文、專家混合架構...
Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...
別只知道 Cursor!Windsurf 用 AI Agent 幫你「指揮」程式碼,開發體驗大升級? 厭倦了複製貼上和無止盡的 Debug 嗎?繼 Cursor 之後,AI 程式設計工具...
OpenAI推出結構化輸出功能:讓AI生成的JSON更加可靠 OpenAI在其API中新增了結構化輸出功能,大幅提升了AI模型生成有效JSON的可靠性。這項功能不僅讓開發者能更輕鬆地建立穩定的...
Llama 3.1 405B:開源人工智能的新紀元 簡介 人工智能領域正在經歷一場革命,而Meta公司的Llama 3.1 405B模型正站在這場革命的最前沿。本文將深入探討這個開創性的大型...