在這科技圈風起雲湧的一週,從 Meta 內部爆出的震撼彈到開發者工具的實戰技巧,再到模型架構的底層突破,訊息量大得驚人。這不僅僅是關於誰的模型更強,更關乎誠信、工具的使用哲學,以及我們如何與機器互動的未來。
Meta 的信任危機:Llama 4 基準測試被證實「動過手腳」
這或許是近期 AI 圈最大的醜聞。長期以來,社群對於 Meta Llama 4 的基準測試(Benchmark)成績一直存有疑慮,認為數據好得有點不自然。如今,這些猜測終於得到了官方內部的證實——而且是由即將離職的 AI 首席科學家 Yann LeCun 親口承認的。
根據 Slashdot 的報導,LeCun 在接受《金融時報》採訪時直言不諱,承認 Llama 4 的結果「被稍微美化了(fudged a little bit)」。團隊為了在不同測試中取得好成績,竟然針對特定測試使用了不同的模型版本,這完全違背了評測的公平性原則。
這場風波的後果相當嚴重。據傳,Mark Zuckerberg 對此極為震怒,不僅對參與的團隊失去信心,甚至將整個生成式 AI 部門「邊緣化」。這也解釋了為什麼原本備受期待的 Llama 4 完整版遲遲未見蹤影,且後續更新幾乎停擺。隨著 LeCun 準備離開 Meta 創辦自己的實驗室,他更是拋出了一句耐人尋味的話:Meta 新招募的超級智慧團隊成員已經「完全被 LLM 洗腦了(LLM-pilled)」,而他始終認為這條路對於實現超級智慧來說是條死胡同。
這起事件無疑給開源模型的公信力蒙上了一層陰影,也讓開發者在選擇模型時多了一份警惕。
大神怎麼用工具?Claude Code 創作者的「原味」設定
與 Meta 的混亂不同,Claude 的開發社群則顯得務實許多。很多人好奇,打造出 Claude Code 這款強大工具的創作者 Boris Cherny,自己平時是怎麼寫程式的?他的設置會不會複雜到難以複製?
答案出乎意料地簡單。Boris Cherny 在 X 平台上分享,他的設定其實非常「香草(Vanilla,意指原廠未改)」。他強調 Claude Code 開箱即用,不需要過度客製化。
他的工作流主要依賴於終端機(Terminal)與網頁版的混合操作:
- 多工並行:他在終端機中同時運行 5 個 Claude 實例,標籤頁編號從 1 到 5,並利用系統通知來掌握哪個實例需要輸入。
- 雲端協作:除了本地端,他還會在
claude.ai/code上並行運行 5-10 個實例。 - 靈活切換:在寫程式時,他經常使用
&指令將本地對話移交給網頁版,或者使用--teleport在兩者之間來回穿梭。
最有趣的一點是,他們團隊共享一個 CLAUDE.md 文件。這個文件就像是給 AI 的「員工手冊」,記錄了專案的最佳實踐。每當 Claude 犯錯,團隊就會更新這個文件,確保 AI 不會重蹈覆轍。這種「集體調教」的方式,對於軟體開發團隊來說,絕對值得借鏡。
OpenAI 的下一步:更像人的語音互動與專屬硬體
當開發者還在優化程式碼時,OpenAI 似乎正準備改變我們與 AI 的物理互動方式。根據 The Information 的獨家消息,OpenAI 正積極整合內部的音訊與語音團隊,目標是在 2026 年第一季推出全新的語音模型架構。
這並非單純的模型更新,而是在為一款「AI 優先」的個人硬體裝置鋪路。這款預計在一年後問世的裝置,據稱將具備極高水準的情感表達能力,語音聽起來將更加自然、富有情緒。
更關鍵的技術突破在於「即時中斷處理」與更快的反應速度。想像一下,就像和真人聊天一樣,你可以隨時插話,而 AI 能自然地停頓並回應,不再是那種呆板的一問一答模式。這種主動式的伴侶型 AI,或許正是 OpenAI 想要搶佔的下一個入口。
DeepSeek 技術詳解:解決超連結架構的「身分危機」
在學術領域,DeepSeek 團隊剛剛發布了一篇極具份量的論文 mHC: Manifold-Constrained Hyper-Connections,針對大型模型的基礎架構提出了重要的改良。
什麼是 mHC?
這項研究是為了解決「超連結(Hyper-Connections, HC)」架構在擴展時遇到的瓶頸。雖然 HC 通過擴展殘差流(Residual Stream)的寬度提升了性能,但也破壞了殘差連接中最重要的「恆等映射(Identity Mapping)」屬性。簡單說,當模型變深時,訊號在傳遞過程中容易失真,導致訓練不穩定。
他們如何解決?
DeepSeek 提出了一種名為「流形約束超連結(mHC)」的方法。這聽起來很艱深,但核心概念是:
- 流形投影:他們將殘差連接的矩陣限制在一個特定的幾何空間內(Birkhoff 多胞形)。
- 雙重隨機矩陣:強制讓矩陣的行與列之和都為 1。這使得訊號傳遞變成了一種「凸組合(Convex Combination)」,就像是將特徵進行加權混合,而不是無限制地放大或縮小。
實際效果
這種設計恢復了訊號的守恆性,讓深層網路的訓練變得異常穩定。實驗顯示,在 27B 參數的模型訓練中,mHC 不僅解決了梯度爆炸的問題,而且只增加了約 6.7% 的計算開銷,卻換來了更強的可擴展性與穩定性。這對於未來構建更大規模的基礎模型來說,是一個相當關鍵的技術基石。
我們可以把這個技術突破拆解成三個簡單的階段:
1. 問題:原本的加強版設計(HC)像是個「誇張的傳話者」
想像我們在玩一個有 100 層樓高的「傳話遊戲」(這就是深層神經網絡):
- 傳統架構(ResNet):就像你在每一層樓都安分地把訊息傳給下一層。雖然穩定,但資訊傳遞的通道比較窄(單一車道)。
- 超連結架構(HC,Hyper-Connections):這是之前的改良版。它把通道拓寬了(比如變成了 4 線道),允許資訊在不同車道間交換。
- 它的問題:在交換資訊時,它沒有規則。上一層傳下來的聲音,到了這一層可能被無限制放大。
- 結果:就像一個人在傳話時喜歡加油添醋。傳了幾層之後,原本的一句「你好」,可能變成了震耳欲聾的尖叫(訊號爆炸/梯度爆炸)。這導致模型在訓練時非常不穩定,甚至訓練失敗。
2. 解決方案(mHC):嚴格的「音量總量管制」
DeepSeek 的 mHC(流形約束超連結) 其實就是給這個傳話過程加上了一個嚴格的數學規則,這個規則叫做「雙重隨機矩陣」,我們可以把它想像成**「100% 配額制」**。
- 什麼是「流形約束」? 這聽起來很難,其實就是規定:不管你怎麼混合資訊,總量必須保持不變。
- 怎麼做?(行與列之和為 1)
想像你在調配一杯果汁(混合特徵)。
- 原本的 HC:想加多少水就加多少,想加多少糖就加多少。結果杯子滿出來(數值爆炸)。
- 現在的 mHC:你的杯子容量固定是 100%。如果你想多加 20% 的蘋果汁,你就必須減少 20% 的柳橙汁。你只能重新分配比例,不能憑空增加總量。
這使得訊號在傳遞時,變成了一種「凸組合」(Convex Combination),也就是加權平均。這樣一來,不管樓層蓋得再高,聲音傳遞下去永遠保持清晰、音量適中,不會變成尖叫聲。
3. 效果:用極小的代價換來超級穩定性
這項技術的厲害之處在於性價比極高:
- 穩如泰山:原本訓練到一半會數值崩潰的大模型,現在可以順利訓練了,訊號傳遞變得非常平滑。
- 代價很小:為了維持這個「100% 配額制」,雖然需要多做一點點數學運算(Sinkhorn-Knopp 演算法),但因為 DeepSeek 對底層程式碼做了優化,整體訓練時間只增加了 6.7%。
騰訊 Hunyuan 讓文字動起來:10 億參數的 3D 動畫生成
最後,對於內容創作者來說,騰訊帶來的 HY-Motion 1.0 是一個令人興奮的禮物。這是一個擁有超過 10 億參數的文字生成動作(Text-to-Motion)模型,現已開源。
這個模型採用了 Diffusion Transformer (DiT) 架構,能夠根據自然語言指令生成高品質、流暢且多樣化的 3D 角色動畫。不論是「揮手打招呼」還是複雜的「戰鬥動作」,它都能精準理解。騰訊聲稱這是業界覆蓋類別最全面的動作生成模型,包含 6 大類、200 多種動作。對於遊戲開發者或動畫師來說,這些生成的資產可以直接整合進 3D 流程中,大幅降低了製作門檻。
常見問題解答 (FAQ)
Q1: 為什麼 Meta Llama 4 的基準測試造假事件這麼重要? 這關乎 AI 發展的透明度與信任。Llama 系列一直被視為開源模型的標竿,如果連頂級科技公司的數據都經過操弄(針對不同測試換用不同模型優化),開發者就無法準確評估模型的真實能力,這會誤導整個社群的技術選擇與資源投入。
Q2: Boris Cherny 提到的 CLAUDE.md 是什麼?有什麼好處?
CLAUDE.md 是一個存放在專案根目錄的文件,專門用來指導 Claude 了解該專案的架構、編碼規範與常見錯誤。這就像是給 AI 的「交接文件」。它的好處是能讓 AI 隨著專案發展「記住」團隊的偏好,避免重複犯同樣的錯誤,實現類似「持續學習」的效果。
Q3: DeepSeek 提出的 mHC 技術主要解決了什麼問題? 它主要解決了大型模型在使用「超連結(Hyper-Connections)」架構時的訓練穩定性問題。原本的架構容易導致訊號在深層網路中失控(梯度爆炸或消失),mHC 通過數學上的約束(流形投影),確保了訊號傳遞的穩定,讓模型可以做得更深、更大,同時保持高效。
Q4: OpenAI 計劃推出的語音硬體有什麼特別之處? 不同於目前的語音助手,這款裝置的核心在於更先進的 AI 音訊模型。它將具備更自然的情感表達能力,並且支援「即時中斷」,這意味著使用者可以隨時打斷 AI 說話,AI 也能做出類似真人的反應,目標是創造出真正具備陪伴感的互動體驗。
Q5: 騰訊的 HY-Motion 1.0 可以用在哪些地方? 它主要應用於遊戲開發、影視動畫製作與虛擬角色互動。開發者只需輸入文字描述(例如「一個受傷的人跛腳行走」),模型就能生成對應的 3D 骨架動作數據,這些數據可以直接導入 Blender 或 Unity 等軟體中使用,省去了大量手工調整動作的時間。


