蘋果論文稱AI推理是「幻覺」?GitHub大神開嗆:用河內塔測試根本是場誤會!

蘋果最新研究用「河內塔」難題挑戰AI,直指大型語言模型(LLM)的推理能力有極限,甚至只是「思考的幻覺」。但這結論卻引來GitHub工程師的強力反駁。究竟是AI真的不行,還是蘋果從一開始就問錯了問題?本文深入探討這場精彩的AI思辨,看看AI推理的真實面貌到底是什麼。


最近科技圈可說是非常熱鬧,一場關於 AI「到底會不會思考」的論戰,正由蘋果公司點燃,並迅速延燒到整個開發者社群。

蘋果機器學習研究團隊發表了一篇名為《思考的幻覺》(The Illusion of Thinking)的論文,結論相當直接:當前最強的大型語言模型(LLM),在推理能力上存在著根本性的缺陷。

這話一出,馬上就在 X(前身為 Twitter)和各大論壇上炸開了鍋。其中,反駁聲量最大的,莫過於 GitHub 的資深軟體工程師 Sean Goedecke。他直接開嗆,認為蘋果的研究方法有問題,用「河內塔」這種經典老掉牙的謎題來衡量 AI 的推理能力,根本是劃錯重點,也誤解了這些模型的真正價值。

所以,這到底是怎麼一回事?是蘋果揭穿了國王的新衣,還是 GitHub 大神點出了盲點?讓我們一起來看看。

蘋果的「震撼彈」:AI思考的幻覺?

蘋果的研究聽起來非常學術,但核心概念其實不難理解。他們想知道,當我們說一個模型「會推理」時,它到底是真的在動腦,還是在模仿人類動腦的樣子?

為了找出答案,研究團隊選擇了「河內塔」這個經典的邏輯謎題。你可能在小時候玩過,就是要把一堆大小不一的圓盤,從A柱子透過B柱子,完全搬到C柱子,而且過程中大盤子不能壓在小盤子上面。

這個遊戲的規則很簡單,但當盤子數量一多,解決步驟就會呈指數級增長,變得極度複雜。這正是蘋果想要的——一個可以精準控制「複雜度」的實驗環境。

實驗結果非常有趣,大致可以分成三種情況:

  1. 簡單任務:盤子很少的時候,模型表現不錯。但有趣的是,不具備複雜推理鏈(Reasoning Traces)的標準模型,表現有時甚至比專門的推理模型(LRMs)更好。這就像有時候殺雞真的不用牛刀。
  2. 中等難度任務:當盤子數量增加,任務變得有點挑戰性時,具備「思考過程」的推理模型就展現出優勢了,表現明顯優於標準模型。這完全符合我們的預期。
  3. 超高難度任務:這就是關鍵所在。當盤子多到一個程度(例如十個盤子,需要1023步才能解決),所有模型,無論是標準版還是推理版,幾乎是「完全崩潰」。

更讓人驚訝的是,模型並不是算到一半算錯了,而是它們彷彿「意識到」這個問題太難了,然後就……放棄了。論文指出,模型在面對極高複雜度時,推理的努力程度反而下降,不再嘗試生成解決步驟,即便給了它足夠的運算資源(Token Budget)也一樣。

蘋果團隊因此得出結論:這些模型的推理能力似乎是一種「幻覺」。它們並非真的在進行邏輯推演,而是在一定複雜度範圍內,生成看起來像推理的文字。一旦超出那個「舒適圈」,這個幻覺就會破滅。

你可以在這裡閱讀完整的蘋果研究論文

GitHub 大神不服:這根本不是在測推理!

蘋果的論文一出,Sean Goedecke 立刻提出了質疑。他認為,用河內塔這種問題來測試 AI 推理,從根本上就是一場誤會。

他的論點很簡單:河內塔是一個純粹的、重複性的「演算法」問題。解決它需要的是遵循一個固定的遞迴公式,一步一步執行數千次。這根本不是 AI 推理模型的設計初衷。

他打了一個很妙的比方:「這就像批評一個語言模型不具備語言能力,只因為它寫不出一首複雜的詩歌一樣。這並不公平。」

老實說,這個比喻很有說服力。我們期待 AI 做的,是處理模糊、需要創造性聯想、或是從大量資訊中總結規律的任務,而不是像傳統計算機那樣,一遍又一遍地執行重複指令。讓一個語言模型去解河內塔,就像叫一個頂尖的策略顧問去手動計算圓周率到小數點後一萬位一樣,完全是用錯了地方。

Goedecke 強調,LLM 更像是拼圖中的一塊,它擅長的是模式識別和文本生成。我們看到的「推理幻覺」,其實只是模型在預測「一個正在推理的人,下一步可能會寫出什麼樣的文字」。它並非真的在內部建立了一個符號邏輯樹來進行推演。

所以,AI到底會不會「思考」?問題出在哪?

那麼,我們該相信誰?

其實,蘋果和 Goedecke 可能都沒錯。他們只是從不同的角度看待同一個問題。

蘋果的實驗確實揭示了當前 LLM 架構在處理精確、複雜、長鏈條的邏輯任務時的局限性。這點是客觀事實,也提醒了我們不要對 AI 的能力過於樂觀。

然而,Goedecke 的批評也同樣切中要害:我們可能從一開始就用錯了評估標準。真正的推理能力,或許不該用解數學題或程式題的精準度來定義。

真正的問題可能更深層。要實現人類那樣的推理,光靠預測下一個詞是不夠的。我們需要符號樹搜尋、反覆試驗、內部模擬、獎勵機制、即時學習……以及一大堆目前 LLM 還不具備的東西。

這也引出了下一個,或許也是最重要的問題:我們是不是在當前的技術框架下走到盡頭了?

超越當前框架:我們需要的是「新大腦」而非更快的CPU

這場辯論最終指向了一個更宏大的話題:計算的未來。

許多專家認為,我們已經觸及了當前計算範式(也就是基於線性計算的馮·諾伊曼架構)的天花板。我們的大腦,毫無疑問是一台大規模的「並行」處理器,無數神經元同時放電、協同工作。而我們卻試圖在一次只能做一件事的線性晶片上,模擬這種複雜的並行活動。

這就像試圖用一條單線道,去模擬整個城市繁忙的交通網絡。不管你把車速提多快,終究會堵車。

因此,要讓 AI 實現真正的突破,或許我們需要的不是更強大的 GPU,而是一種全新的硬體架構,例如「神經形態晶片」(Neuromorphic Chips)——一種從設計上就模仿大腦神經元結構的晶片。同時,我們也需要為這種並行計算打造的專用程式語言(例如 Bend)。

有些觀點甚至認為,產業界在量子計算上投入了過多資金,而忽略了在AI推理方面潛力可能更大的神經形態計算。畢竟,後者在解決方案的可擴展性上,可能比應對噪音隔離問題的量子計算來得更有前景。

說到底,蘋果與 GitHub 大神的這場交鋒,不僅僅是一次技術辯論。它更像一聲警鐘,提醒我們重新審視 AI 的本質,並思考通往「通用人工智慧」(AGI)的下一步,到底該怎麼走。


常見問題解答 (FAQ)

Q1: 蘋果的研究是否完全否定了AI的推理能力?

不完全是。蘋果的研究更準確地說是揭示了當前大型語言模型在處理「特定類型」問題時的局限性,特別是那些需要長鏈條、高精度、指數級複雜度的演算法任務。在處理中等複雜度的推理或需要創造性聯想的任務時,這些模型依然展現出強大的能力。

Q2: 為什麼用「河內塔」來測試AI會有這麼大的爭議?

主要爭議點在於「任務的適配性」。批評者認為,河內塔是一個高度結構化、有固定解決公式的演算法問題。用它來測試一個為處理自然語言、模糊概念和模式識別而設計的LLM,就像用長跑比賽來評估一個舉重選手的力量。這並不能全面反映模型在它所擅長領域的「推理」能力。

Q3: 未來AI要實現真正的推理,可能需要什麼?

這場辯論暗示,僅僅擴大模型規模和數據量可能不夠。未來的突破可能來自於幾個方面:

  • 混合架構: 將LLM的語言能力與傳統的符號邏輯引擎結合。
  • 新演算法: 開發具備內部模擬、試錯和長期規劃能力的演算法。
  • 新硬體: 最重要的可能是硬體革命,例如發展「神經形態晶片」,從根本上改變計算的方式,使其更接近大腦的並行處理模式。
分享至:
DMflow.chat Ad
廣告

DMflow.chat

DMflow.chat: 您的智能對話夥伴,提升客戶互動體驗。

Learn More

© 2025 Communeify. All rights reserved.