news

AI日報|Claude Sonnet 5 登場 | Google 發布 Nano Banana 2 Lite 與 Omni Flash | OpenAI GeneBench-Pro 生物基準 | Claude Code 隱私爭議

July 1, 2026
Updated Jul 1
2 min read

AI日報|Claude Sonnet 5 登場 | Google 發布 Nano Banana 2 Lite 與 Omni Flash | OpenAI GeneBench-Pro 生物基準 | Claude Code 隱私爭議

說實話,這幾天的科技新聞簡直讓人喘不過氣。各大巨頭似乎約好了一起發布新產品。這一切感覺有些瘋狂。不過別擔心,重點資訊都已經梳理完畢。從開發者工具到科學研究,再到一些引發社群熱議的隱私疑慮,接下來將為大家逐一拆解。

Claude 家族全面進化:Sonnet 5 登場與科學專屬工具

Anthropic 剛剛釋出了 Claude Sonnet 5。這款模型在代理能力上有了顯著的提升。開發者現在可以讓它規劃任務、使用瀏覽器,甚至自主操作終端機。許多人關心它的價格。它的上市優惠價相當具吸引力,到 2026 年 8 月 31 日前,輸入每百萬代幣 2 美元,輸出 10 美元;優惠期過後,標準定價將會恢復為輸入每百萬代幣 3 美元、輸出 15 美元。這效能幾乎逼近 Opus 4.8,成本卻低得多。這真的很划算。非常划算。

另一個好消息是,商務部解除了對 Claude Fable 5 和 Mythos 5 的出口管制。這意味著這兩款強大模型即將重新開放存取。市場對此反應相當熱烈。

針對專業領域,Claude Science 也正式亮相。這是一個專為科學家設計的 AI 工作台。研究人員終於有了一個整合平台,可以處理單細胞 RNA 測序、蛋白質結構預測等任務。此外,Claude Desktop 推出了 Linux 測試版。Ubuntu 和 Debian 的使用者現在能享受流暢的桌面體驗。

這裡得稍微岔開話題。社群最近對 Claude Code 有些不滿。在 Reddit 的 r/ClaudeAI 版塊上,有使用者指出 Claude Code 內部隱藏了一段程式碼,用來偵測使用者是否使用來自中國的代理伺服器或時區。有人立刻將其貼上「間諜軟體」的標籤。這聽起來很嚇人。不過許多開發者反駁這只是常見的遙測技術。一開始看起來是個壞消息。但這件事也提醒大家,給予 AI 代理完整系統權限確實需要三思,必須更謹慎地管理權限。

Google 的多媒體佈局與開發者品管工具

視角轉向 Google。他們推出了一對有趣的組合:Nano Banana 2 Lite 與 Gemini Omni Flash。大家知道嗎?Nano Banana 2 Lite 是目前最具成本效益的圖像生成模型。只要短短 4 秒就能產出高畫質圖片。開發者可以先用它快速生成圖像,再丟給 Gemini Omni Flash 轉換成高品質影片。這種一氣呵成的工作流程非常流暢。

對於 Mac 使用者,Gemini Spark 推出了 macOS 版本。它並非單純的聊天視窗,反而能幫忙整理下載資料夾裡的 PDF 文件,甚至整合 Canva 或 Dropbox 等第三方服務。

開發者可能常遇到一個問題,就是調整了提示詞,卻不知道模型整體表現是變好還是變差。Google 分享了他們的代理品質飛輪方法論。這套流程透過準備資料、執行推論、評分、分析與最佳化,幫助開發者精準掌握 AI 代理的實際效能。這套邏輯能省下無數的測試時間。

喜歡滑手機的人也有福了。NotebookLM 推出了短影音總覽功能。現在可以把複雜的文件轉換成 60 秒的直式短影音。把無意識滑手機的習慣變成學習的過程,這點子真的很棒。

OpenAI 專注於生物運算與底層基礎建設

說到嚴肅的科學研究,OpenAI 推出了 GeneBench-Pro。這是一個專門評估 AI 在計算生物學領域判斷力的測試標準。科學研究充滿了模糊性。**這個測試項目極具挑戰性。OpenAI 目前在 Hugging Face 上開源了其中 10 個具代表性的問題,並且即將提供一個包含 50 個問題的子集給第三方機構 Artificial Analysis 進行獨立的基準測試,涵蓋基因體學、轉譯醫學等領域。**大家可以仔細研究他們的案例分析,了解這些挑戰有多麼複雜。

寫過程式的人都懂,抓蟲有時候比寫新功能還痛苦。OpenAI 最近就遇到一個堪稱都市傳說等級的難題。他們修復了一個潛伏長達 18 年的 GNU libunwind 程式碼錯誤。團隊一開始以為是單一問題,後來採用類似流行病學的資料分析方法,才發現這其實是兩個完全不相關的獨立錯誤(一個是 Azure 主機上無預警的硬體損壞,另一個才是潛伏在 GNU libunwind 程式庫中長達 18 年的競爭危害),只是非常巧合地在同時間發生並被發現。這提醒了開發界,建立高品質的資料集對於解決棘手問題有多重要。

總結來說,這波更新帶來了強大的代理能力、多媒體生成工具以及更完善的評估系統。無論是處理日常瑣事、開發應用程式還是進行尖端科學研究,這些資源都提供了強大的支援。大家可以盡情嘗試這些新工具,說不定能激發出意想不到的靈感。

問與答(Q&A)

Q1:社群為何會指控 Claude Code 內部隱藏了「間諜軟體(Spyware)」? A1: 根據 Reddit 上的開發者逆向工程發現,自 2.1.91 版本起,Claude Code 會偵測使用者是否使用代理伺服器(Proxy),並檢查系統時區是否為亞洲/上海或烏魯木齊,以及網域是否包含特定中國 AI 實驗室的關鍵字。若符合條件,程式會透過改變系統提示詞中日期的「引號格式(如 \u2019\u02BC)」來將這些資訊秘密傳遞給伺服器。部分使用者批評這是嚴重侵犯隱私的間諜行為;但許多開發者與社群成員反駁,這只是軟體公司為了保護智慧財產權,防止中國實驗室未經授權進行「模型蒸餾(Distillation)」與轉售而採取的常見遙測與防禦機制。

Q2:Claude 家族這次推出了哪些新工具與模型更新? A2:

  • Claude Sonnet 5:具備強大的「代理能力(Agentic capabilities)」,能夠自主使用瀏覽器、終端機進行軟體工程任務,效能直逼更高等級的 Opus 4.8。此外,它的上市優惠價非常划算,至 2026 年 8 月 31 日前為輸入每百萬代幣 2 美元、輸出 10 美元
  • Claude Science:一個專為科學家打造的 AI 工作台,整合了多種資料庫與工具(如 Jupyter、R),協助研究人員處理單細胞序列、蛋白質結構預測等繁瑣任務。
  • 平台支援擴展:商務部解除了對 Claude Fable 5 與 Mythos 5 的出口管制,即將重新開放存取;同時 Claude Desktop 也推出了支援 Ubuntu 與 Debian 的 Linux 測試版。

Q3:Google 在多媒體生成與應用端有哪些引人注目的新發布? A3:

  • Nano Banana 2 Lite:這是目前 Google 速度最快、最具成本效益的圖像生成模型,產出一張圖片只需短短 4 秒,非常適合需要大量、快速生成的開發者。
  • Gemini Omni Flash:支援高品質影片生成與對話式影片剪輯,能同步處理文字、圖像與影片輸入。
  • NotebookLM 短影音:推出了「短影音總覽」功能,能將複雜的文件轉換為 60 秒的直式短影音,把無意識滑手機(Doom scrolling)的時間化為學習過程。
  • Gemini Spark macOS 版:正式登陸 Mac,並支援連結至 Canva、Dropbox、Zillow 等第三方應用程式,幫助使用者自動整理檔案並執行跨平台的繁重任務。

Q4:OpenAI 推出的 GeneBench-Pro 基準測試有什麼特別之處? A4: GeneBench-Pro 是一個專門評估 AI 在計算生物學領域「判斷力(Research taste)」的進階基準測試。有別於一般的知識問答,真實的科學研究充滿模糊性,這個測試要求 AI 代理處理混亂的真實數據、修改分析假設,並判斷分析結果是否足以作為醫療決策的依據(涵蓋體細胞腫瘤學、功能性基因體學等領域)。OpenAI 目前先開源了其中 10 個具代表性的問題,後續將提供 50 個問題的子集給第三方機構進行獨立測試。

Q5:開發者在調校 AI 代理(Agents)時經常難以判斷品質好壞,Google 提出了什麼解決方案? A5: Google 提出了「代理品質飛輪(Agent Quality Flywheel)」的方法論,強調開發者應該要「用工程方法測量品質,而不是只憑感覺(vibe-checking)」。這套方法包含準備資料、執行推論、評分、分析與最佳化五個步驟,並透過內建的「AutoRaters(自動評分器)」與開發者自訂的標準,精準評估代理在多輪對話中的真實表現,甚至能自動揪出代理「內部狀態正確、對外回答卻錯誤」等難以察覺的隱性失敗。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.