在這個 AI 技術日新月異的 2025 年末,我們似乎每隔幾天就會迎來一次技術上的小革命。這不只是關於模型參數變得多大,而是它們變得多「聰明」,以及我們如何與這些數位大腦共處。今天的新聞非常精彩,從 Google 挑戰人類邏輯極限的新模式,到 Cursor 為了適應 GPT-5.1 而進行的底層改造,再到 Anthropic 試圖理解人類內心的社會學實驗,每一項都值得我們細細品味。
Google Gemini 3 Deep Think:打破邏輯天花板的平行推理
老實說,看著 AI 解決複雜數學題總有一種莫名的療癒感。Google 剛剛宣佈在 Gemini App 中向 AI Ultra 訂閱用戶推出 Gemini 3 Deep Think 模式。這不僅僅是一個「更強」的版本,它在處理問題的方式上有了根本性的轉變。
你可能遇過這種情況:問 AI 一個超難的邏輯題,它給了一個答案,但你總覺得哪裡怪怪的。Gemini 3 Deep Think 的核心在於它採用了先進的「平行推理(Parallel Reasoning)」。這意味著什麼?簡單來說,它不再是一條路走到黑。當面對複雜的數學、科學或邏輯難題時,這個模型會同時探索多個假設,就像是一個團隊在腦力激盪,而不是一個人在單打獨鬥。
這種方法的效果相當驚人。在業界公認的高難度基準測試「Humanity’s Last Exam」中,它在不使用額外工具的情況下拿下了 41.0% 的分數。更誇張的是在 ARC-AGI-2 測試中,它配合程式碼執行達到了前所未有的 45.1%。要知道,ARC 測試一直被認為是檢驗 AI 是否具備通用推理能力的試金石,能拿到這個分數,代表它在處理陌生、抽象規律的能力上已經把許多競爭對手甩在後頭了。這項技術是建立在先前 Gemini 2.5 Deep Think 變體的基礎上,那些變體可是剛在國際數學奧林匹亞競賽拿過金牌的。
Cursor 整合 GPT-5.1-Codex-Max:回歸 Shell 的硬派開發魂
對於每天跟程式碼搏鬥的開發者來說,Cursor 絕對是近期最熱門的工具之一。而他們剛發布的更新日誌揭露了他們如何馴服 OpenAI 最新、最強大的 GPT-5.1-Codex-Max 模型。
這次的更新很有意思,它反映了一種「返璞歸真」的趨勢。OpenAI 的團隊發現,這個新的 Codex 模型在訓練時非常依賴 Shell(命令列介面)。因此,Cursor 決定順水推舟,調整了他們的 Agent 框架,讓模型更傾向於使用 Shell 指令來搜尋、讀取檔案和進行編輯,而不是依賴內嵌的 Python 腳本。
為什麼要這樣做?想像一下,如果模型在處理複雜編輯時感到吃力,它可能會試圖寫一個 Python 腳本來解決問題。這雖然強大,但有時候卻是殺雞用牛刀,甚至可能不夠安全。Cursor 透過調整工具定義(例如將搜尋工具命名得更像 ripgrep),引導模型在適當的時候直接呼叫工具,既提升了安全性,也讓體驗更流暢。
另一個值得注意的點是關於「推理過程」的保留。你知道嗎?OpenAI 的推理模型在思考時會產生一連串的內部獨白(Chain of Thought)。Cursor 的實驗發現,如果丟棄這些推理軌跡,GPT-5-Codex 的效能會暴跌 30%!這就像是你把工程師的草稿紙拿走,只准他寫最後答案,他當然會不知所措。所以,Cursor 現在加入了警報機制,確保這些珍貴的思考過程能完整保留,讓模型不會在多輪對話中迷失方向。
Anthropic Interviewer:當 AI 開始採訪人類
科技始終來自於人性,但我們真的了解人類在 AI 時代的感受嗎?Anthropic 這次不發布新模型,而是發布了一個研究工具 Anthropic Interviewer,並公開了對 1,250 名專業人士的訪談數據。
這項研究非常有趣,因為採訪者本身就是 AI。它透過 Claude 驅動,與人類進行 10 到 15 分鐘的深度對談。結果發現,大家的心情其實相當複雜。一般上班族普遍持樂觀態度,他們很樂意把那些重複、無聊的工作丟給 AI,讓自己專注在更有價值的事情上。這聽起來很合理,對吧?
但在創意領域,氣氛就比較緊繃了。許多作家和藝術家雖然承認 AI 能提高生產力,但也深受「冒名頂替症候群」和同儕壓力的困擾。有位作家甚至說,雖然 AI 寫的小說結構完美,但總覺得少了點人類特有的細膩情感。至於科學家們,他們渴望一個能幫忙生成假設的強大助手,但目前的 AI 還沒能贏得他們完全的信任,畢竟在科學研究中,準確性就是一切。
Anthropic 開放這個工具進行公開測試,如果你是 Claude 的老用戶,最近可能也會收到採訪邀請。這不僅是一個技術展示,更是一個讓大眾聲音能回饋到模型開發過程中的重要嘗試。
Hugging Face OpenEvals:給模型建構者的評估指南
最後,當我們看著上面這些強大的模型神仙打架時,或許你會好奇:「到底怎麼定義一個模型好不好?」Hugging Face 提供了一個很好的視角。他們的 OpenEvals 指南為那些正在構建模型的人提供了一套評估標準。
這份指南不僅僅是列出一堆測試數據,它更像是一本教戰守則,引導開發者思考:我的模型在特定任務上的表現如何?它是否真正解決了使用者的痛點?在模型百花齊放的現在,擁有正確的評估心態,可能比盲目追求跑分來得更重要。
常見問題解答 (FAQ)
Q:我要如何使用 Gemini 3 Deep Think 模式? 目前這個模式僅開放給 Google AI Ultra 的訂閱用戶。如果你已經是訂閱者,只要打開 Gemini App,在提示詞輸入框選擇「Deep Think」,並在模型下拉選單中確認選用「Gemini 3 Pro」即可體驗。
Q:Cursor 針對 Codex 模型的更新會影響我現有的使用習慣嗎? 大部分的改變是在底層發生的。你會感覺到 Agent 在執行任務時變得更聰明、更少出錯,特別是在處理複雜的檔案編輯時。你不需要改變你的操作方式,但可能會發現它現在更常「做對事」,而不需要你反覆修正。
Q:我可以參與 Anthropic 的這項採訪研究嗎? 可以!Anthropic 正在進行公開試點。如果你是 Claude.ai 的現有用戶(包含免費、Pro 或 Max 方案),且註冊時間超過兩週,你可能會在網頁上看到參與訪談的彈出視窗。這是一個分享你對 AI 看法的好機會。
Q:為什麼保留 AI 的「推理過程」對寫程式這麼重要? 想像你在解一道數學題,如果你忘記了前幾個步驟是怎麼推導的,後面的計算很容易就會出錯。AI 也是一樣,特別是在寫程式這種邏輯性極強的任務中,保留「它為什麼這麼做」的思考軌跡,能幫助它在連續的步驟中保持目標一致,避免寫出前後矛盾的程式碼。


