AI日報｜Claude Sonnet 5 登場 | Google 發布 Nano Banana 2 Lite 與 Omni Flash | OpenAI GeneBench-Pro 生物基準 | Claude Code 隱私爭議

說實話，這幾天的科技新聞簡直讓人喘不過氣。各大巨頭似乎約好了一起發布新產品。這一切感覺有些瘋狂。不過別擔心，重點資訊都已經梳理完畢。從開發者工具到科學研究，再到一些引發社群熱議的隱私疑慮，接下來將為大家逐一拆解。

Claude 家族全面進化：Sonnet 5 登場與科學專屬工具

Anthropic 剛剛釋出了 Claude Sonnet 5。這款模型在代理能力上有了顯著的提升。開發者現在可以讓它規劃任務、使用瀏覽器，甚至自主操作終端機。許多人關心它的價格。它的上市優惠價相當具吸引力，到 2026 年 8 月 31 日前，輸入每百萬代幣 2 美元，輸出 10 美元；優惠期過後，標準定價將會恢復為輸入每百萬代幣 3 美元、輸出 15 美元。這效能幾乎逼近 Opus 4.8，成本卻低得多。這真的很划算。非常划算。

另一個好消息是，商務部解除了對 Claude Fable 5 和 Mythos 5 的出口管制。這意味著這兩款強大模型即將重新開放存取。市場對此反應相當熱烈。

針對專業領域，Claude Science 也正式亮相。這是一個專為科學家設計的 AI 工作台。研究人員終於有了一個整合平台，可以處理單細胞 RNA 測序、蛋白質結構預測等任務。此外，Claude Desktop 推出了 Linux 測試版。Ubuntu 和 Debian 的使用者現在能享受流暢的桌面體驗。

這裡得稍微岔開話題。社群最近對 Claude Code 有些不滿。在 Reddit 的 r/ClaudeAI 版塊上，有使用者指出 Claude Code 內部隱藏了一段程式碼，用來偵測使用者是否使用來自中國的代理伺服器或時區。有人立刻將其貼上「間諜軟體」的標籤。這聽起來很嚇人。不過許多開發者反駁這只是常見的遙測技術。一開始看起來是個壞消息。但這件事也提醒大家，給予 AI 代理完整系統權限確實需要三思，必須更謹慎地管理權限。

Google 的多媒體佈局與開發者品管工具

視角轉向 Google。他們推出了一對有趣的組合：Nano Banana 2 Lite 與 Gemini Omni Flash。大家知道嗎？Nano Banana 2 Lite 是目前最具成本效益的圖像生成模型。只要短短 4 秒就能產出高畫質圖片。開發者可以先用它快速生成圖像，再丟給 Gemini Omni Flash 轉換成高品質影片。這種一氣呵成的工作流程非常流暢。

對於 Mac 使用者，Gemini Spark 推出了 macOS 版本。它並非單純的聊天視窗，反而能幫忙整理下載資料夾裡的 PDF 文件，甚至整合 Canva 或 Dropbox 等第三方服務。

開發者可能常遇到一個問題，就是調整了提示詞，卻不知道模型整體表現是變好還是變差。Google 分享了他們的代理品質飛輪方法論。這套流程透過準備資料、執行推論、評分、分析與最佳化，幫助開發者精準掌握 AI 代理的實際效能。這套邏輯能省下無數的測試時間。

喜歡滑手機的人也有福了。NotebookLM 推出了短影音總覽功能。現在可以把複雜的文件轉換成 60 秒的直式短影音。把無意識滑手機的習慣變成學習的過程，這點子真的很棒。

OpenAI 專注於生物運算與底層基礎建設

說到嚴肅的科學研究，OpenAI 推出了 GeneBench-Pro。這是一個專門評估 AI 在計算生物學領域判斷力的測試標準。科學研究充滿了模糊性。**這個測試項目極具挑戰性。OpenAI 目前在 Hugging Face 上開源了其中 10 個具代表性的問題，並且即將提供一個包含 50 個問題的子集給第三方機構 Artificial Analysis 進行獨立的基準測試，涵蓋基因體學、轉譯醫學等領域。**大家可以仔細研究他們的案例分析，了解這些挑戰有多麼複雜。

寫過程式的人都懂，抓蟲有時候比寫新功能還痛苦。OpenAI 最近就遇到一個堪稱都市傳說等級的難題。他們修復了一個潛伏長達 18 年的 GNU libunwind 程式碼錯誤。團隊一開始以為是單一問題，後來採用類似流行病學的資料分析方法，才發現這其實是兩個完全不相關的獨立錯誤（一個是 Azure 主機上無預警的硬體損壞，另一個才是潛伏在 GNU libunwind 程式庫中長達 18 年的競爭危害），只是非常巧合地在同時間發生並被發現。這提醒了開發界，建立高品質的資料集對於解決棘手問題有多重要。

總結來說，這波更新帶來了強大的代理能力、多媒體生成工具以及更完善的評估系統。無論是處理日常瑣事、開發應用程式還是進行尖端科學研究，這些資源都提供了強大的支援。大家可以盡情嘗試這些新工具，說不定能激發出意想不到的靈感。

問與答(Q&A)

Q1：社群為何會指控 Claude Code 內部隱藏了「間諜軟體（Spyware）」？ A1： 根據 Reddit 上的開發者逆向工程發現，自 2.1.91 版本起，Claude Code 會偵測使用者是否使用代理伺服器（Proxy），並檢查系統時區是否為亞洲/上海或烏魯木齊，以及網域是否包含特定中國 AI 實驗室的關鍵字。若符合條件，程式會透過改變系統提示詞中日期的「引號格式（如 \u2019 或 \u02BC）」來將這些資訊秘密傳遞給伺服器。部分使用者批評這是嚴重侵犯隱私的間諜行為；但許多開發者與社群成員反駁，這只是軟體公司為了保護智慧財產權，防止中國實驗室未經授權進行「模型蒸餾（Distillation）」與轉售而採取的常見遙測與防禦機制。

Q2：Claude 家族這次推出了哪些新工具與模型更新？ A2：

Claude Sonnet 5：具備強大的「代理能力（Agentic capabilities）」，能夠自主使用瀏覽器、終端機進行軟體工程任務，效能直逼更高等級的 Opus 4.8。此外，它的上市優惠價非常划算，至 2026 年 8 月 31 日前為輸入每百萬代幣 2 美元、輸出 10 美元。
Claude Science：一個專為科學家打造的 AI 工作台，整合了多種資料庫與工具（如 Jupyter、R），協助研究人員處理單細胞序列、蛋白質結構預測等繁瑣任務。
平台支援擴展：商務部解除了對 Claude Fable 5 與 Mythos 5 的出口管制，即將重新開放存取；同時 Claude Desktop 也推出了支援 Ubuntu 與 Debian 的 Linux 測試版。

Q3：Google 在多媒體生成與應用端有哪些引人注目的新發布？ A3：

Nano Banana 2 Lite：這是目前 Google 速度最快、最具成本效益的圖像生成模型，產出一張圖片只需短短 4 秒，非常適合需要大量、快速生成的開發者。
Gemini Omni Flash：支援高品質影片生成與對話式影片剪輯，能同步處理文字、圖像與影片輸入。
NotebookLM 短影音：推出了「短影音總覽」功能，能將複雜的文件轉換為 60 秒的直式短影音，把無意識滑手機（Doom scrolling）的時間化為學習過程。
Gemini Spark macOS 版：正式登陸 Mac，並支援連結至 Canva、Dropbox、Zillow 等第三方應用程式，幫助使用者自動整理檔案並執行跨平台的繁重任務。

Q4：OpenAI 推出的 GeneBench-Pro 基準測試有什麼特別之處？ A4： GeneBench-Pro 是一個專門評估 AI 在計算生物學領域「判斷力（Research taste）」的進階基準測試。有別於一般的知識問答，真實的科學研究充滿模糊性，這個測試要求 AI 代理處理混亂的真實數據、修改分析假設，並判斷分析結果是否足以作為醫療決策的依據（涵蓋體細胞腫瘤學、功能性基因體學等領域）。OpenAI 目前先開源了其中 10 個具代表性的問題，後續將提供 50 個問題的子集給第三方機構進行獨立測試。

Q5：開發者在調校 AI 代理（Agents）時經常難以判斷品質好壞，Google 提出了什麼解決方案？ A5： Google 提出了「代理品質飛輪（Agent Quality Flywheel）」的方法論，強調開發者應該要「用工程方法測量品質，而不是只憑感覺（vibe-checking）」。這套方法包含準備資料、執行推論、評分、分析與最佳化五個步驟，並透過內建的「AutoRaters（自動評分器）」與開發者自訂的標準，精準評估代理在多輪對話中的真實表現，甚至能自動揪出代理「內部狀態正確、對外回答卻錯誤」等難以察覺的隱性失敗。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI日報｜微軟Agentic OS曝光｜Frontier 25億美元投資｜NVIDIA巨型AI工廠｜Claude與ZCode開發神器

AI日報｜微軟Agentic OS曝光｜Frontier 25億美元投資｜NVIDIA巨型AI工廠｜Claude與ZCode開發神器科技圈最近真的非常熱鬧。各種重磅消息接踵而來。各大科技巨頭似乎都約好了在同一時間發布令人驚豔的新專案與服務。大家或許會覺得這些只是一般的軟體升級。其實背後隱藏著整個科技生態圈的重大轉變。從作業系統的底層架構到龐大的運算中心，每一個環節都在被重新定義。接下來將帶大家一探究竟，看看這些新發展將如何影響未來的工作與開發模式。微軟Copilot OS意外流出？帶你一探「Aion」的真面目你知道嗎？微軟似乎正在悄悄醞釀一個全新的殺手級專案。最近一段2024年錄製的內部影片不小心曝光了。這支影片展示了一個代號為「Aion」的全新作業系統實驗。這並非單純的Windows 11升級版。這其實是一個完全圍繞著Copilot打造的輕量化網頁版作業系統。老實說這確實讓人覺得非常耳目一新。根據Windows Central的洩漏報導，這個名為Aion的專案採用了全新的Win3程式碼庫。它移除了傳統Win32應用程式的支援。換來的是更長的電池續航力以及更安全的系統環境。大家可能會好奇，到底什麼是Agentic OS？簡單來說，傳統作業系統需要你點擊各種圖示來開啟應用程式。Agentic OS則是以人工智慧代理為核心。你只需要透過一個多模態的輸入框下達指令，系統就會自動幫你找檔案、開網頁或是執行日常任務。如果使用者真的需要執行傳統的Windows應用程式怎麼辦？別擔心，Aion透過Windows 365遠端連接到雲端電腦來解決這個難題。影片中還展示了一個非常實用的「Spaces」功能。它可以自動將相關的應用程式與網站分組收納到工作列中。使用者只要按一下就能一次開啟多個相關視窗。這項設計非常符合現代人一心多用的工作習慣。雖然目前還不確定這個專案是否會正式推出，但這些創新設計無疑展示了未來桌面運算的可能樣貌。砸下25億美元！Microsoft Frontier Company如何保護企業專屬智慧把焦點轉向企業端，微軟最近成立了一家名為Microsoft Frontier Company的新公司。這可不是一家普通的新創公司。微軟為了這個新計畫投入了高達25億美元的資金。這項投資的目標非常明確，就是要提供優質的企業級工程服務。很多企業都想導入最新科技。不過他們更害怕自己的商業機密被拿去訓練公開的語言模型。這點確實讓人非常頭痛。微軟官方部落格的公告特別強調了「智慧與信任」結合的重要性。Microsoft Frontier Company的核心任務就是確保客戶的專有資料與競爭優勢得到絕對的保護。他們採用開放且多樣化的模型策略。客戶可以自由選擇要使用OpenAI、Anthropic還是其他開源模型。沒有人會被單一技術供應商綁架。這家新公司由Rodrigo Kede Lima領軍，旗下擁有超過6000名產業專家與工程師。他們已經與倫敦證券交易所集團（LSEG）等大型機構展開合作。這些專家會直接進駐客戶端協助設計系統。這不僅僅是提供技術支援而已。這更是為了確保系統能產生實質的商業效益。透過FinOps等專業工具，企業能清楚掌握投資報酬率。這樣的做法確實切中了許多大型企業長久以來的痛點。 NVIDIA出招解決算力焦慮：聯手打造巨型AI工廠你以為買GPU就像買青菜一樣簡單嗎？對於許多新創公司與模型開發者來說，取得足夠的算力一直是一個巨大的門檻。基礎設施的投資往往需要極其龐大的資金。光靠長期的合約承諾也很難獲得足夠的融資來購買硬體。為了解決這個市場痛點，NVIDIA推出了一個全新的商業模式。NVIDIA官方發布的消息指出，他們正在與Sharon AI及Firmus等雲端業者緊密合作。透過利潤共享與信用支持的模式，共同建置大型的多租戶人工智慧工廠。這招真的非常聰明。它不僅降低了新興公司的進入門檻，也確保了NVIDIA設備在市場上的普及率。這些合作案的規模大得驚人。Sharon AI正在部署多達4萬個NVIDIA Grace Blackwell GB300 GPU。而Firmus則在印尼巴淡島建設一個龐大的DSX工廠園區。預計將擴充至17萬個GPU。這樣的基礎設施能讓開發者免去繁瑣的硬體建置過程。大家可以更專注於模型訓練與推理應用。算力的取得變得更加彈性與可靠。程式開發者的福音來了：Claude與ZCode雙雙祭出神級更新寫程式這件事，現在也變得越來越有趣了。各大平台都在推出專屬的開發環境與輔助工具。首先來看看Claude的最新進展。根據Claude開發團隊的貼文，Claude Code中的Artifacts功能現在已經全面開放給Pro與Max方案的使用者。這代表什麼意思呢？開發者只要提出需求，Claude就會自動寫好程式碼。更厲害的是，它還會即時發布到claude.ai上。這些頁面都是完全獨立且私密的。這簡直就像是有了一個隨叫隨到的專屬工程師。無論是除錯還是測試新功能，整個流程都變得順暢無比。另一方面，Z.ai也沒有閒著。他們最近正式推出了ZCode。這是一款專為GLM-5.2設計的官方開發環境。ZCode支援macOS、Windows與Linux等各大作業系統。更棒的是它支援BYOK（自備金鑰）功能。開發者可以直接綁定現有的訂閱與API來使用。對於GLM Coding Plan的訂閱戶，ZCode還提供了1.5倍的使用額度。這些新工具的出現，無疑讓軟體開發的門檻大幅降低，也讓創意更容易實現。總結一下，無論是微軟探索下一代作業系統的潛力，還是NVIDIA努力普及強大的硬體資源，以及各類開發工具的推陳出新。科技產業正邁向一個更注重實用性與信任度的新階段。大家都希望能將複雜的技術轉化為日常工作中不可或缺的好幫手。問與答(Q&A) Q1：微軟意外流出的全新作業系統「Aion」有什麼特別之處？ A1： Aion 是一個以網頁技術為基礎、完全圍繞 Copilot 與多模態輸入打造的輕量化 AI 代理作業系統（Agentic OS）。它採用了精簡版的「Win3」程式碼庫，移除了對傳統 Win32 應用程式的支援，以換取更快的更新、更長的電池續航力與更高的安全性。若需執行傳統桌面應用程式，系統會透過 Windows 365 遠端連線至雲端電腦。此外，它還具備名為「Spaces」的功能，能將應用程式與網站自動分組到工作列，讓使用者一鍵開啟多個相關視窗。

Jul 3, 2026 Read →

A …

news

AI日報｜語音代理平台、迴圈工程、AI搜尋經濟、Fable 5重啟、Google版權治理與合理使用

AI日報｜語音代理平台、迴圈工程、AI搜尋經濟、Fable 5重啟、Google版權治理與合理使用你知道嗎？人工智慧技術的演進似乎永遠沒有極限。每天都有令人驚豔的新工具問世，改變了軟體開發與內容創作的既有模式。老實說，許多人原本以為構建高效能的語音助理需要龐大的工程團隊與昂貴的預算。情況恰好相反。如今的新技術讓一切變得異常平易近人。這篇文章將詳細帶領讀者探討近期幾項關鍵進展，涵蓋無程式碼語音平台、產品開發的迴圈思維、搜尋引擎的商業模式革命，以及牽動各大產業神經的版權爭議。打造語音代理：兩分鐘搞定繁雜設定開發語音應用程式向來是件苦差事。傳統的語音架構通常拼湊了三個完全獨立的應用程式介面：語音轉文字、語言模型以及文字轉語音。每一個轉換環節都會無可避免地增加延遲，同時也帶來更多潛在的故障風險。對於需要處理大量通話的企業來說，這無疑是個巨大的痛點。為了解決這個問題，xAI 宣布在 Grok Voice 平台上推出 Voice Agent Builder 測試版。這是一個無程式碼的整合平台。開發者只需不到兩分鐘的時間，就能建構出客製化的生產級語音代理，完全不需要撰寫任何一行程式碼。這背後的邏輯其實很簡單。這套系統直接內建了電話通訊、知識檢索、防護機制與可觀察性工具。使用者甚至可以保留現有的電話號碼，直接透過 SIP 進行連接。計費方式也相當透明。目前純語音的 API 費率為每分鐘 0.05 美元，完全免收額外的平台費用。若是使用免費提供的電話號碼，則僅需額外支付每分鐘 0.01 美元的通訊費。這種化繁為簡的設計，確實大幅降低了語音技術的入門門檻。迴圈工程：從程式碼到產品的演進之旅建立軟體產品的過程，其實可以拆解為幾個持續運作的關鍵迴圈。透過不斷迭代，產品才能真正貼近使用者的核心需求。知名學者吳恩達 (Andrew Ng) 近期在社群平台上分享了三個建立從零到一產品的核心「迴圈工程」(Loop Engineering) 概念。第一個是代理程式編碼迴圈。給定產品規格後，人工智慧代理能夠自行撰寫程式碼並進行測試，直到程式碼毫無錯誤並符合規格為止。這項循環通常只需幾分鐘即可完成。吳恩達分享了一個相當有趣的生活插曲。他週末為女兒開發一款打字練習應用程式時，他的人工智慧代理連續運作了一個小時，自行透過網頁瀏覽器測試了無數次，完全不需要人類介入。第二個是開發者回饋迴圈。開發者通常需要花費數十分鐘到數小時的時間來檢查現有產品，並引導代理程式進行改進。由於代理程式已經能妥善測試自己的程式碼，開發者得以將精力轉移到更高階的產品決策上，例如決定要提供哪些核心功能。以打字應用程式為例，開發者可以專注於思考解鎖哪些貓咪服裝能吸引孩子，或是如何優化家長的登入流程。第三個是外部回饋迴圈。這包含向朋友詢問意見、向早期測試人員發布版本，或是透過 A/B 測試將程式碼投入正式生產環境。這類策略通常需要花費數小時甚至數週的時間，但收集到的真實數據能有效形塑開發者的產品願景。即便人工智慧已經能處理大量繁瑣的工作，人類仍然具備不可取代的「脈絡優勢」。人類比人工智慧更了解使用者的喜好與產品運作的真實情境。這種無可取代的品味，正是推動產品持續進步的關鍵。搜尋引擎新思維：保護創作者的實質收益當今人工智慧技術瞬息萬變，搜尋引擎的商業模式也正面臨重大轉型。過去三十年來，網站擁有者允許搜尋引擎爬取內容，藉此換取珍貴的訪客流量。這是一個雙贏的交易。如今的答案引擎會直接提供摘要，導致網站流量大幅下降。根據一項皮尤研究中心的調查，當搜尋結果顯示人工智慧摘要時，使用者點擊傳統連結的機率僅剩下 8%。這讓內容創作者陷入了兩難。拒絕人工智慧爬取會讓內容難以被發現，但同意爬取卻又得不到應有的回報。為了解決這個困境，Cloudflare 提出了一個相當實際的解決方案，推動從「按爬取付費」轉向「按使用付費」的新型經濟模式。 Cloudflare 透過與 Ceramic.ai 和 You.com 等頂尖人工智慧公司合作，為內容擁有者提供了一套全新的付費機制。當出版商的內容出現在 Ceramic 的搜尋結果中時，他們就能獲得實質的報酬。這代表著付費標準將跟隨內容創造的實際價值，與爬蟲抓取資料的次數無關。這不僅能為創作者帶來新的收入來源，也能激勵網際網路持續產出高品質的原創內容。

Jul 2, 2026 Read →

A …

news

AI日報｜Cursor 行動寫程式、LongCat 大模型、Claude 企業佈局、Rampart 隱私防護、Gemini 個人化 AI、Meta 腦波打字

AI日報｜Cursor 行動寫程式、LongCat 大模型、Claude 企業佈局、Rampart 隱私防護、Gemini 個人化 AI、Meta 腦波打字掌握最新的技術脈動，從行動開發工具、大型語言模型架構解析，到企業巨頭間的競爭角力，還有保護隱私的本地端過濾工具與非侵入式腦波解碼技術。本文將帶領讀者全面了解這些影響未來的關鍵發展。科技圈的發展步調總是讓人目不暇給。說實話，幾個月前大家還在討論的概念，如今早就已經成為日常工具。從開發者手邊的寫程式神器，到企業雲端佈局的明爭暗鬥，甚至連醫療級的腦波解碼都有了全新進展。仔細想想，技術已經悄悄滲透到生活的各個角落。大家準備好跟上這波新浪潮了嗎？接下來，就讓我們把焦點放在近期最值得關注的幾個重要里程碑。離開電腦也能修 Bug？手機上的開發體驗升級開發者們都知道，靈感往往來得突然。有時候走在路上突然想到一個解法，手邊卻沒有電腦可以馬上測試。這的確挺讓人焦慮的。不過，現在有了 Cursor 行動應用程式（iOS 版），情況大不相同了。這款 App 將完整的開發環境搬到了手機上。使用者只要打開手機，選好儲存庫，就能透過語音輸入想法，並使用斜線指令引導 AI 模型。這些運算都跑在隔離的雲端虛擬機器裡。大家可以隨時測試、驗證程式碼。哪怕闔上筆記型電腦，工作階段依然會在雲端持續執行。更讓人驚豔的是它的 Remote Control 功能。只要電腦保持喚醒狀態，開發者就能用手機遠端接手正在電腦上執行的任務。鎖定畫面上的 Live Activities 也會隨時推播代理狀態，甚至可以直接用手機審查截圖、日誌、差異，並直接在 App 裡面合併 PR 請求。看著辛苦寫出的程式碼能隨時隨地被修改，這種成就感難以言喻。另外，開源專案 OpenClaw 官方也宣布正式推出 iOS 與 Android 應用程式，讓開源社群的使用者能在行動裝置上享受便捷的協作體驗。中國算力的大型實驗：解析 LongCat-2.0 的架構秘密大型語言模型的軍備競賽從未停歇。大家可能會好奇，目前開源模型的極限在哪裡？LongCat-2.0 給出了一個相當具震撼力的答案。它是一個總參數高達 1.6 兆、每個 token 激活約 480 億參數的 MoE 模型。

Jun 30, 2026 Read →