OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告,詳細評估了 AI 在軟體開發中的實際表現,並透過一個價值 100 萬美元的真實開發專案進行測試。這項基準測試名為 SWE-Lancer,涵蓋 1,400 個來自 Upwork 的真實專案,並從兩大核心方面——直接開發與專案管理——來評估 AI 的能力。

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

圖片擷取自: https://arxiv.org/abs/2502.12115

Claude 3.5 Sonnet 表現最佳,成功率達 26.2%

測試結果顯示,在目前公開可用的 AI 模型中,Anthropic 推出的 Claude 3.5 Sonnet 表現最優秀,其在純編碼任務的成功率達到了 26.2%,而在專案管理決策上的正確率則達到 44.9%。

這意味著,在程式設計的某些部分,AI 確實可以發揮作用,尤其是處理相對單純的任務,例如修復 API 調用錯誤或簡單的程式碼優化。然而,對於需要更深入理解和創意解決方案的複雜專案(例如開發跨平台影音播放功能),AI 仍然顯得力不從心。事實上,測試中發現 AI 雖然能辨識出問題區塊,但經常無法理解問題的根本原因,更別說提供完整的解決方案。

AI 在開發市場的經濟價值

從經濟效益角度來看,數據顯示,在公開的 Diamond 資料集中,AI 能夠完成價值約 208,050 美元的開發工作。如果擴展至完整數據集,則 AI 預計可處理超過 40 萬美元的專案工作量。這表明,AI 在軟體開發中的應用已經具備一定的經濟價值,尤其是對於企業來說,AI 可能能夠大幅降低人力成本,並提升部分開發效率。

為何 GPT-4o 未被納入測試?

值得注意的是,OpenAI 並未在這次測試中納入最新的 GPT-4o(內部代號 o3)。目前唯一的參考點來自去年 8 月 OpenAI 釋出的 SWE-Bench Verified 測試結果,當時 GPT-4o 取得了 33% 的分數,而更新後的 o3 推理模型更是達到了 72%(OpenAI, 2024b)。這樣看來,GPT-4o 可能已經遠超 SWE-Lancer 測試中的所有模型,那麼為何不納入比較?

有幾種可能性:

  1. 數據時效性——這次 SWE-Lancer 測試可能基於較舊的數據,而 GPT-4o 可能尚未經過最佳化,因此未被納入。
  2. 策略性考量——如果 GPT-4o 表現明顯領先 OpenAI 競爭對手,可能會對市場預期產生影響,甚至影響 OpenAI 未來新模型的推出時機。
  3. 測試範圍適配性——GPT-4o 的設計可能更適用於即時推理與多模態處理,而 SWE-Lancer 偏重純粹的程式設計能力。

無論原因為何,這次測試結果確實讓 Claude 3.5 Sonnet 站上了舞台,成為目前最被關注的 AI 程式設計模型之一。

AI 程式設計的未來發展方向

雖然 AI 目前在軟體開發中仍有諸多限制,但它的潛力不容小覷。未來 AI 在這個領域的發展,可能會聚焦於以下幾點:

  • 增強對程式碼語境的理解能力——AI 需要更深入地理解程式碼的整體架構,而不只是表面上的錯誤修正。
  • 更強的推理與決策能力——目前 AI 主要依賴統計模式,但未來可能會結合更複雜的邏輯推理機制。
  • 人機協作的最佳化——AI 可能不會完全取代人類開發者,而是作為輔助工具,幫助工程師更高效地完成專案。

總的來說,這場 AI 與人類開發者的競賽還遠未結束。無論 OpenAI 是否刻意避開 GPT-4o 的比較,SWE-Lancer 的結果已經證明 AI 正在以驚人的速度提升。或許,是時候重新審視 Anthropic 的技術進展了!

資料來源

Share on:
Previous: xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度
Next: Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
DMflow.chat

DMflow.chat

廣告

一站整合多平台聊天,智能溝通新體驗!支援 Facebook、Instagram、Telegram、LINE 和網站,內建 ChatGPT 與 Gemini 模型。提供歷史記錄保存、推播通知、行銷活動和客服轉接等強大功能,助您全方位提升效率與互動!

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭
18 March 2025

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭

Mistral Small 3.1:開放 AI 的新戰場?法國 AI 新創挑戰美國巨頭 Mistral AI 推出最新開源模型,小型化也能超越 GPT-4o Mini? 法國 AI 新創 M...

Google Gemini 2.0 Flash 水印去除功能引發版權爭議
18 March 2025

Google Gemini 2.0 Flash 水印去除功能引發版權爭議

Google Gemini 2.0 Flash 水印去除功能引發版權爭議 Google AI 新功能再掀版權風暴? 於先前發表的文章Google Gemini 2.0 Flash 解鎖原生圖...

Claude Max 正式登場!Cursor 史上最強 AI 模型來了
18 March 2025

Claude Max 正式登場!Cursor 史上最強 AI 模型來了

Claude Max 正式登場!Cursor 史上最強 AI 模型來了 劃時代 AI 助手,讓大型專案處理更輕鬆! 近日,Cursor 平台正式推出 Claude Max,這是基於 Clau...

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗
14 March 2025

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗

Google Gemini 全新升級:更強的 AI 理解力、更貼心的個人化體驗 Gemini 2.0 Flash Thinking 登場:AI 理解力全面進化 Google 正式推出 G...

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍
13 March 2025

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍

Google 開源最新多模態模型 Gemma-3:效能卓越、運算成本降十倍 🚀 開啟 AI 新紀元:Google 推出開源多模態大模型 Gemma-3 Google 執行長 Sundar P...

Google Gemini 2.0 Flash 解鎖原生圖像生成!開啟 AI 創作新時代
13 March 2025

Google Gemini 2.0 Flash 解鎖原生圖像生成!開啟 AI 創作新時代

Google Gemini 2.0 Flash 解鎖原生圖像生成!開啟 AI 創作新時代 🚀 Gemini 2.0 Flash:AI 創作界的「閃電俠」 繼 Gemma 3 之後,Googl...

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效
4 January 2025

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效

TANGOFLUX:突破性AI文字轉音訊技術,3.7秒生成30秒高品質音效 文章摘要 人工智能領域再添突破,全新文字轉音訊模型TANGOFLUX橫空出世,擁有5.15億參數,不僅能在3.7秒內...

谷歌收購Character.AI創始人,簽署AI授權協議:AI人才爭奪戰升溫
7 August 2024

谷歌收購Character.AI創始人,簽署AI授權協議:AI人才爭奪戰升溫

谷歌收購Character.AI創始人,簽署AI授權協議:AI人才爭奪戰升溫 谷歌宣布與Character.AI簽署非獨家授權協議,獲得其大型語言模型技術。同時,Character.AI的聯合...

驚人測試!ChatGPT模仿用戶聲音,AI風險引發關注
17 August 2024

驚人測試!ChatGPT模仿用戶聲音,AI風險引發關注

驚人測試!ChatGPT模仿用戶聲音,AI風險引發關注 OpenAI最新GPT-4o模型測試中,AI意外模仿用戶聲音,引發安全隱憂。本文深入探討此事件的始末、影響及未來AI語音合成技術的發展趨...