OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告,詳細評估了 AI 在軟體開發中的實際表現,並透過一個價值 100 萬美元的真實開發專案進行測試。這項基準測試名為 SWE-Lancer,涵蓋 1,400 個來自 Upwork 的真實專案,並從兩大核心方面——直接開發與專案管理——來評估 AI 的能力。

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

圖片擷取自: https://arxiv.org/abs/2502.12115

Claude 3.5 Sonnet 表現最佳,成功率達 26.2%

測試結果顯示,在目前公開可用的 AI 模型中,Anthropic 推出的 Claude 3.5 Sonnet 表現最優秀,其在純編碼任務的成功率達到了 26.2%,而在專案管理決策上的正確率則達到 44.9%。

這意味著,在程式設計的某些部分,AI 確實可以發揮作用,尤其是處理相對單純的任務,例如修復 API 調用錯誤或簡單的程式碼優化。然而,對於需要更深入理解和創意解決方案的複雜專案(例如開發跨平台影音播放功能),AI 仍然顯得力不從心。事實上,測試中發現 AI 雖然能辨識出問題區塊,但經常無法理解問題的根本原因,更別說提供完整的解決方案。

AI 在開發市場的經濟價值

從經濟效益角度來看,數據顯示,在公開的 Diamond 資料集中,AI 能夠完成價值約 208,050 美元的開發工作。如果擴展至完整數據集,則 AI 預計可處理超過 40 萬美元的專案工作量。這表明,AI 在軟體開發中的應用已經具備一定的經濟價值,尤其是對於企業來說,AI 可能能夠大幅降低人力成本,並提升部分開發效率。

為何 GPT-4o 未被納入測試?

值得注意的是,OpenAI 並未在這次測試中納入最新的 GPT-4o(內部代號 o3)。目前唯一的參考點來自去年 8 月 OpenAI 釋出的 SWE-Bench Verified 測試結果,當時 GPT-4o 取得了 33% 的分數,而更新後的 o3 推理模型更是達到了 72%(OpenAI, 2024b)。這樣看來,GPT-4o 可能已經遠超 SWE-Lancer 測試中的所有模型,那麼為何不納入比較?

有幾種可能性:

  1. 數據時效性——這次 SWE-Lancer 測試可能基於較舊的數據,而 GPT-4o 可能尚未經過最佳化,因此未被納入。
  2. 策略性考量——如果 GPT-4o 表現明顯領先 OpenAI 競爭對手,可能會對市場預期產生影響,甚至影響 OpenAI 未來新模型的推出時機。
  3. 測試範圍適配性——GPT-4o 的設計可能更適用於即時推理與多模態處理,而 SWE-Lancer 偏重純粹的程式設計能力。

無論原因為何,這次測試結果確實讓 Claude 3.5 Sonnet 站上了舞台,成為目前最被關注的 AI 程式設計模型之一。

AI 程式設計的未來發展方向

雖然 AI 目前在軟體開發中仍有諸多限制,但它的潛力不容小覷。未來 AI 在這個領域的發展,可能會聚焦於以下幾點:

  • 增強對程式碼語境的理解能力——AI 需要更深入地理解程式碼的整體架構,而不只是表面上的錯誤修正。
  • 更強的推理與決策能力——目前 AI 主要依賴統計模式,但未來可能會結合更複雜的邏輯推理機制。
  • 人機協作的最佳化——AI 可能不會完全取代人類開發者,而是作為輔助工具,幫助工程師更高效地完成專案。

總的來說,這場 AI 與人類開發者的競賽還遠未結束。無論 OpenAI 是否刻意避開 GPT-4o 的比較,SWE-Lancer 的結果已經證明 AI 正在以驚人的速度提升。或許,是時候重新審視 Anthropic 的技術進展了!

資料來源

Share on:
Previous: xAI 開發者平台超值首充優惠:每月僅需 $5 即享 $150 信用額度
Next: Google Gemini 2.0 Flash 在大型語言模型幻覺排行榜中拔得頭籌
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智慧整合,創新溝通!除了持久記憶與客製欄位外,更支持真人與 AI 的靈活轉換,無縫連接資料庫與表單,讓網頁互動更靈活高效。

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!
16 April 2025

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!

限時七天!Windsurf AI 震撼推出免費無限 GPT-4.1 試用,立即體驗頂尖 AI!(2025-0414-0421) AI 界的朋友們注意!Windsurf AI 宣布提供為期...

偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密
16 April 2025

偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密

偷聽海豚說話?Google AI 神器 DolphinGemma 揭開海洋世界的溝通秘密 幾十年來,科學家們一直試圖解開海豚那複雜的「喀答聲」、「哨聲」和「脈衝聲」之謎。現在,Googl...

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!
11 April 2025

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰! 厭倦了複雜的網站架設流程?WordPress 推出革命性 AI 網站建置工具,只要一句話描述你的想法,A...

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代
10 April 2025

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代

AI 智慧體大串連!Google 推出開源 A2A 協定,打造無縫協作新時代 厭倦了各自為政的 AI 工具嗎?Google 攜手 50 多家科技巨頭推出 Agent2Agent (A2A...

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶
8 April 2025

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶

Llama 4 偷跑學習?Meta 高層駁斥作弊指控,揭開 AI 模型訓練的灰色地帶 Meta 最新 AI 模型 Llama 4 一推出就引發軒然大波!被指控在訓練過程中「作弊」以美化評...

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4!
6 April 2025

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4!

Meta 震撼彈!開源 Llama 4 多模態 AI 登場,效能驚人挑戰 GPT-4! Meta 最新力作 Llama 4 系列 AI 模型正式開源!原生多模態、超長上下文、專家混合架構...

Manus AI 系統被破解?官方正式回應來了
11 March 2025

Manus AI 系統被破解?官方正式回應來了

Manus AI 系統被破解?官方正式回應來了 Manus 是什麼?為什麼會引發這麼大的關注? 最近,一款名為 Manus 的全能型 AI 代理人產品橫空出世,不僅技術表現亮眼,還因採取邀請...

AI 的「內心戲」:他們如何偷看 Claude 的思考
2 April 2025

AI 的「內心戲」:他們如何偷看 Claude 的思考

AI 的「內心戲」:他們如何偷看 Claude 的思考? 你有沒有好奇過,像 Claude 這樣的人工智慧是怎麼「思考」的?他們正在開發一種像「AI 顯微鏡」的技術,試圖一窺它數十億計算...

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝
19 December 2024

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝? 寫程式卡關?GitHub Copilot AI 助手推出免費版,直接內建在 VS Code!無論你是...