AI 日報：Android 深度整合 Gemini、Claude 法律專用版登場、Jina V5 Omni 效率突破 5.7 倍！

每日 AI 新鮮事：從手機大腦到實體機器人的全面進化

老實說，看著科技發展的速度，真的會覺得不可思議。人們可能覺得手邊的工具已經夠聰明了，但科技巨頭們總有辦法帶來驚喜。今天整理了幾項重量級的技術消息。內容涵蓋了手機系統、專業工作流程，甚至一路延伸到實體空間的機器人技術。

其實，要理解這些改變並不困難。接下來將帶您詳細了解這些新玩意兒到底能幫上什麼忙。

讓 Android 手機化身貼心管家

手機系統升級聽起來很平常對吧？但這次 Google 帶來的更聰明、更主動的 Android 與 Gemini Intelligence 絕對會讓人改觀。你知道嗎？這項升級讓手機從單純的作業系統變成了一個有思考能力的管家。

現在它可以跨越不同的應用程式執行多步驟任務。舉例來說，如果在飯店大廳看到一張旅遊傳單，只要拍下照片並對著 Gemini 說聲要在 Expedia 上尋找六人的類似行程，它就會在背景默默處理好。系統會持續發送進度通知，只等最後的確認。

另外，用語音輸入時難免會結巴或是中英夾雜。全新的 Rambler 功能完全理解這種自然的說話方式，自動幫忙整理成通順的文字。

甚至連主畫面小工具也能透過口語描述來客製化生成。如果是自行車愛好者，可以直接要求生成一個只顯示風速和降雨機率的小工具。搭配上全新的 Material 3 Expressive 視覺語言，讓每一次操作都變得輕鬆自然，同時大幅減少視覺上的干擾。

Jina AI 突破多模態模型的極限

接著來看點技術名詞，但別擔心，其實非常好理解。Jina AI 剛剛發布了 jina-embeddings-v5-omni：支援文字、圖片、音訊與影片的嵌入模型。

事情是這樣的，以往處理多模態資料時，往往需要極大的運算資源。但 Jina AI 聰明地保留了原本的文字架構，僅透過極少部分的投影參數進行訓練。結果呢？他們在只有極小參數的情況下，效能竟然追平了體積大上幾倍的同級模型。這款模型整合了頂尖的視覺與音訊編碼器，表現極為出色。

很多開發者可能會好奇，切換到新模型需要重新建立現有索引嗎？這其實是大家最關心的問題。答案是完全不需要。如果已經在 Elasticsearch 使用他們的文字索引，現在可以直接無縫接軌加入圖片或影音搜尋。因為輸入相同文字產生的向量完全一致。這種隨插即用的升級無疑替工程團隊省下了巨大的麻煩。

Claude 成為法律界的最強神隊友

把目光轉向專業領域。法律工作總是伴隨著堆積如山的合約和條文。Anthropic 最新推出的專為法律產業打造的 Claude 正式登場。

它不再單純只是一個對話機器人。這次 Claude 帶來了超過二十個 MCP 連接器，這代表它直接串接了律師們天天使用的軟體，例如 Box、iManage、Docusign 或是 Ironclad。它還搭載了最新版的 Claude Opus 4.7 模型，具備超強的長文件處理能力。

不僅如此，系統配備了十二種針對不同法務領域的專屬外掛。從併購的盡職調查、智慧財產權的商標檢索，一路到人力資源合約審查，Claude 都能在 Word 或 Outlook 裡面直接幫忙處理。這種做法保留了專業團隊原本的工作習慣，同時又大幅減輕了繁瑣的文書負擔。

Googlebook 帶來筆記型電腦的新想像

如果覺得手機的升級還不夠看，那麼為 Gemini Intelligence 量身打造的 Googlebook 絕對值得關注。

這台筆電由 Acer、ASUS、Dell、HP 與 Lenovo 等知名品牌共同打造。機身上獨特的發光條設計，讓人一眼就能認出它的與眾不同。它完美結合了 Android 豐富的生態系和 ChromeOS 的流暢度。

硬體與軟體層面都圍繞著 AI 設計。當在筆電上工作時，可以透過快速存取功能無縫讀取手機裡面的檔案。如果想訂餐或是繼續完成手機上的語言課程，直接點擊畫面上的應用程式就能處理，完全不需要中斷手邊的工作。多設備之間的界線變得非常模糊，打造出真正個人化的數位體驗。

AI 引領滑鼠游標的全新革命

配合新筆電的推出，Google DeepMind 也做了一個非常有趣的創新，發表了重新想像的 AI 滑鼠游標。

這幾十年來，游標的用法幾乎沒有變過。但現在，游標不再單純只是指出位置，它能真正看懂畫面上的內容。比如反白一段重點摘要並直接要求貼入電子郵件中，停留在統計表格上要求轉換成圓餅圖，甚至是反白一份食譜並要求將所有食材份量加倍。

使用者可以指著圖片裡的一張沙發，然後直接問這放進客廳會長怎樣。這就像平常跟朋友說話時，會很自然地說出幫忙把這個放到那個裡面一樣。游標現在理解了意圖與畫面脈絡，徹底省去了打出一長串提示詞的麻煩。

Perceptron Mk1 將聰明大腦帶入實體空間

最後一項消息，讓視角從數位世界跨入實體空間。Perceptron 隆重推出了 Perceptron Mk1 模型。

這是一個專注於影片理解與具身推理的模型。它具備理解持續變動物理世界的能力，並能處理長達 32K 標記的多模態脈絡。老實說，這對機器人技術是一大福音。Mk1 能夠精準分析工廠裡的畫面，辨識機器人的抓取動作，追蹤庫存變化，甚至精準讀取傳統指針式儀表的數據。

最讓人驚豔的在於它的價格競爭力。它的成本甚至低於 Gemini Flash Lite（每百萬輸入標記僅需 0.15 美元，輸出 1.50 美元），卻能達成頂級模型的效能。無論是工廠安全監控、地理空間分析，或是無人機巡檢，這款模型都讓未來的自動化生產與實體應用變得觸手可及。

問與答

Q1：開發者如果想升級到 Jina AI 的 jina-embeddings-v5-omni 模型，需要重新建立原本的純文字索引嗎？ A：完全不需要。v5-omni 模型保留了與原先 v5-text 完全相同的凍結文字骨幹，這代表輸入相同文字所產生的向量是百分之百一致的（位元組對位元組相同）。開發者不需重建任何文字索引，就能直接享有圖片、音訊與影片的跨模態搜尋功能，實現真正的無縫升級。

Q2：Android 的全新 Rambler 功能，真的能聽懂我們日常講話的結巴和中英夾雜嗎？ A：是的！Rambler 就是專為人們「真實說話方式」所設計的。它不僅會自動過濾掉說話時的「嗯」、「啊」或自我修正的冗詞贅字，將其整理成簡潔通順的文字；更透過 Gemini 先進的多語言模型，讓它能在單一訊息中無縫切換並理解多種語言（例如混合使用英文與北印度語），完全保留使用者的語意。

Q3：Anthropic 這次推出的 Claude，具體來說可以怎麼幫到法律團隊？ A： Claude 不再只是聊天視窗，它透過全新的 20 多個 MCP 連接器，直接串接了法律界常用的核心軟體，例如 Box、Docusign、iManage 和 Ironclad 等。此外，它還備有 12 種針對特定法務領域的專屬外掛（涵蓋併購、智慧財產權、勞資合約等），甚至能直接在 Word、Outlook 裡幫忙比對合約條文或撰寫回信，讓律師能在原本習慣的工具裡享受 AI 的協助。

Q4：Google DeepMind 重新想像的「AI 滑鼠游標」，和傳統游標差在哪裡？ A：過去半個世紀以來，游標只能指出畫面上的「位置」；但這款結合 AI 的游標，能真正理解所指著的「內容」與「脈絡」。你可以指著表格要求轉換成圓餅圖，或是反白食譜要求將食材份量加倍。甚至能像平常跟朋友說話一樣，指著畫面上的東西說「把這個放進那裡」，AI 就能立刻理解並執行，省去打一長串提示詞的麻煩。

Q5：為什麼 Perceptron Mk1 模型的發表，對實體機器人技術來說是一大突破？ A： Mk1 是專為理解影片與具身推理（Embodied Reasoning）打造的模型，它能看懂持續變動的物理世界，並且能直接輸出機器人需要的空間座標（如抓取點）。最令人驚豔的是它的極致成本效益，其價格甚至低於 Gemini Flash Lite（每百萬輸入標記僅需 0.15 美元），卻能達成與頂尖模型相當的效能，這讓工廠自動化與實體 AI 應用在成本上變得真正可行。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI日報｜LongCat 2.0 全面開源 / Leanstral 1.5 形式驗證 / SeFi-Image 語義優先生成架構 / Claude 協作開發指南 / Midjourney 版權戰反擊

AI日報｜LongCat 2.0 全面開源 / Leanstral 1.5 形式驗證 / SeFi-Image 語義優先生成架構 / Claude 協作開發指南 / Midjourney 版權戰反擊科技圈的步調總是不停歇，每天都有全新的技術突破與產業動態爭奪著大眾的目光。這幾天，開源社群迎來了重量級的語言模型釋出，圖像生成技術也出現了顛覆傳統架構的新穎設計。除此之外，開發者對於如何更有效地與 AI 協作寫程式，也有了更透徹的實戰心得。當然，娛樂產業與科技公司之間的版權法律戰，同樣正在如火如荼地展開。這篇文章將帶領讀者一探究竟，梳理這些看似各自獨立卻又緊密相連的重大事件。開源語言模型的新突破：LongCat 2.0 與 Leanstral 1.5 說真的，能在開源社群看到這種等級的模型釋出，確實讓人眼睛一亮。最近有兩款模型特別值得關注，它們各自在不同的領域展現了驚人的實力。首先是 Meituan LongCat 2.0 專案的全面開源。這是一個參數高達 1.6 兆的混合專家模型（MoE），其中活躍參數約為 480 億，並支援高達 100 萬個 token 的上下文長度。最難能可貴的是，它採用了完全沒有限制的 MIT 授權條款，這意味著開發者可以自由地將其應用於商業用途。該模型原生支援代理功能，能直接與 Claude Code、OpenClaw 以及 Hermes Agent 整合。它同時支援 GPU 與 NPU 平台，並已在大規模叢集上完成驗證。這種毫無保留的開源策略，無疑為開發社群注入了一劑強心針。

Jul 6, 2026 Read →

A …

news

AI日報｜微軟Agentic OS曝光｜Frontier 25億美元投資｜NVIDIA巨型AI工廠｜Claude與ZCode開發神器

AI日報｜微軟Agentic OS曝光｜Frontier 25億美元投資｜NVIDIA巨型AI工廠｜Claude與ZCode開發神器科技圈最近真的非常熱鬧。各種重磅消息接踵而來。各大科技巨頭似乎都約好了在同一時間發布令人驚豔的新專案與服務。大家或許會覺得這些只是一般的軟體升級。其實背後隱藏著整個科技生態圈的重大轉變。從作業系統的底層架構到龐大的運算中心，每一個環節都在被重新定義。接下來將帶大家一探究竟，看看這些新發展將如何影響未來的工作與開發模式。微軟Copilot OS意外流出？帶你一探「Aion」的真面目你知道嗎？微軟似乎正在悄悄醞釀一個全新的殺手級專案。最近一段2024年錄製的內部影片不小心曝光了。這支影片展示了一個代號為「Aion」的全新作業系統實驗。這並非單純的Windows 11升級版。這其實是一個完全圍繞著Copilot打造的輕量化網頁版作業系統。老實說這確實讓人覺得非常耳目一新。根據Windows Central的洩漏報導，這個名為Aion的專案採用了全新的Win3程式碼庫。它移除了傳統Win32應用程式的支援。換來的是更長的電池續航力以及更安全的系統環境。大家可能會好奇，到底什麼是Agentic OS？簡單來說，傳統作業系統需要你點擊各種圖示來開啟應用程式。Agentic OS則是以人工智慧代理為核心。你只需要透過一個多模態的輸入框下達指令，系統就會自動幫你找檔案、開網頁或是執行日常任務。如果使用者真的需要執行傳統的Windows應用程式怎麼辦？別擔心，Aion透過Windows 365遠端連接到雲端電腦來解決這個難題。影片中還展示了一個非常實用的「Spaces」功能。它可以自動將相關的應用程式與網站分組收納到工作列中。使用者只要按一下就能一次開啟多個相關視窗。這項設計非常符合現代人一心多用的工作習慣。雖然目前還不確定這個專案是否會正式推出，但這些創新設計無疑展示了未來桌面運算的可能樣貌。砸下25億美元！Microsoft Frontier Company如何保護企業專屬智慧把焦點轉向企業端，微軟最近成立了一家名為Microsoft Frontier Company的新公司。這可不是一家普通的新創公司。微軟為了這個新計畫投入了高達25億美元的資金。這項投資的目標非常明確，就是要提供優質的企業級工程服務。很多企業都想導入最新科技。不過他們更害怕自己的商業機密被拿去訓練公開的語言模型。這點確實讓人非常頭痛。微軟官方部落格的公告特別強調了「智慧與信任」結合的重要性。Microsoft Frontier Company的核心任務就是確保客戶的專有資料與競爭優勢得到絕對的保護。他們採用開放且多樣化的模型策略。客戶可以自由選擇要使用OpenAI、Anthropic還是其他開源模型。沒有人會被單一技術供應商綁架。這家新公司由Rodrigo Kede Lima領軍，旗下擁有超過6000名產業專家與工程師。他們已經與倫敦證券交易所集團（LSEG）等大型機構展開合作。這些專家會直接進駐客戶端協助設計系統。這不僅僅是提供技術支援而已。這更是為了確保系統能產生實質的商業效益。透過FinOps等專業工具，企業能清楚掌握投資報酬率。這樣的做法確實切中了許多大型企業長久以來的痛點。 NVIDIA出招解決算力焦慮：聯手打造巨型AI工廠你以為買GPU就像買青菜一樣簡單嗎？對於許多新創公司與模型開發者來說，取得足夠的算力一直是一個巨大的門檻。基礎設施的投資往往需要極其龐大的資金。光靠長期的合約承諾也很難獲得足夠的融資來購買硬體。為了解決這個市場痛點，NVIDIA推出了一個全新的商業模式。NVIDIA官方發布的消息指出，他們正在與Sharon AI及Firmus等雲端業者緊密合作。透過利潤共享與信用支持的模式，共同建置大型的多租戶人工智慧工廠。這招真的非常聰明。它不僅降低了新興公司的進入門檻，也確保了NVIDIA設備在市場上的普及率。這些合作案的規模大得驚人。Sharon AI正在部署多達4萬個NVIDIA Grace Blackwell GB300 GPU。而Firmus則在印尼巴淡島建設一個龐大的DSX工廠園區。預計將擴充至17萬個GPU。這樣的基礎設施能讓開發者免去繁瑣的硬體建置過程。大家可以更專注於模型訓練與推理應用。算力的取得變得更加彈性與可靠。程式開發者的福音來了：Claude與ZCode雙雙祭出神級更新寫程式這件事，現在也變得越來越有趣了。各大平台都在推出專屬的開發環境與輔助工具。首先來看看Claude的最新進展。根據Claude開發團隊的貼文，Claude Code中的Artifacts功能現在已經全面開放給Pro與Max方案的使用者。這代表什麼意思呢？開發者只要提出需求，Claude就會自動寫好程式碼。更厲害的是，它還會即時發布到claude.ai上。這些頁面都是完全獨立且私密的。這簡直就像是有了一個隨叫隨到的專屬工程師。無論是除錯還是測試新功能，整個流程都變得順暢無比。另一方面，Z.ai也沒有閒著。他們最近正式推出了ZCode。這是一款專為GLM-5.2設計的官方開發環境。ZCode支援macOS、Windows與Linux等各大作業系統。更棒的是它支援BYOK（自備金鑰）功能。開發者可以直接綁定現有的訂閱與API來使用。對於GLM Coding Plan的訂閱戶，ZCode還提供了1.5倍的使用額度。這些新工具的出現，無疑讓軟體開發的門檻大幅降低，也讓創意更容易實現。總結一下，無論是微軟探索下一代作業系統的潛力，還是NVIDIA努力普及強大的硬體資源，以及各類開發工具的推陳出新。科技產業正邁向一個更注重實用性與信任度的新階段。大家都希望能將複雜的技術轉化為日常工作中不可或缺的好幫手。問與答(Q&A) Q1：微軟意外流出的全新作業系統「Aion」有什麼特別之處？ A1： Aion 是一個以網頁技術為基礎、完全圍繞 Copilot 與多模態輸入打造的輕量化 AI 代理作業系統（Agentic OS）。它採用了精簡版的「Win3」程式碼庫，移除了對傳統 Win32 應用程式的支援，以換取更快的更新、更長的電池續航力與更高的安全性。若需執行傳統桌面應用程式，系統會透過 Windows 365 遠端連線至雲端電腦。此外，它還具備名為「Spaces」的功能，能將應用程式與網站自動分組到工作列，讓使用者一鍵開啟多個相關視窗。

Jul 3, 2026 Read →

A …

news

AI日報｜語音代理平台、迴圈工程、AI搜尋經濟、Fable 5重啟、Google版權治理與合理使用

AI日報｜語音代理平台、迴圈工程、AI搜尋經濟、Fable 5重啟、Google版權治理與合理使用你知道嗎？人工智慧技術的演進似乎永遠沒有極限。每天都有令人驚豔的新工具問世，改變了軟體開發與內容創作的既有模式。老實說，許多人原本以為構建高效能的語音助理需要龐大的工程團隊與昂貴的預算。情況恰好相反。如今的新技術讓一切變得異常平易近人。這篇文章將詳細帶領讀者探討近期幾項關鍵進展，涵蓋無程式碼語音平台、產品開發的迴圈思維、搜尋引擎的商業模式革命，以及牽動各大產業神經的版權爭議。打造語音代理：兩分鐘搞定繁雜設定開發語音應用程式向來是件苦差事。傳統的語音架構通常拼湊了三個完全獨立的應用程式介面：語音轉文字、語言模型以及文字轉語音。每一個轉換環節都會無可避免地增加延遲，同時也帶來更多潛在的故障風險。對於需要處理大量通話的企業來說，這無疑是個巨大的痛點。為了解決這個問題，xAI 宣布在 Grok Voice 平台上推出 Voice Agent Builder 測試版。這是一個無程式碼的整合平台。開發者只需不到兩分鐘的時間，就能建構出客製化的生產級語音代理，完全不需要撰寫任何一行程式碼。這背後的邏輯其實很簡單。這套系統直接內建了電話通訊、知識檢索、防護機制與可觀察性工具。使用者甚至可以保留現有的電話號碼，直接透過 SIP 進行連接。計費方式也相當透明。目前純語音的 API 費率為每分鐘 0.05 美元，完全免收額外的平台費用。若是使用免費提供的電話號碼，則僅需額外支付每分鐘 0.01 美元的通訊費。這種化繁為簡的設計，確實大幅降低了語音技術的入門門檻。迴圈工程：從程式碼到產品的演進之旅建立軟體產品的過程，其實可以拆解為幾個持續運作的關鍵迴圈。透過不斷迭代，產品才能真正貼近使用者的核心需求。知名學者吳恩達 (Andrew Ng) 近期在社群平台上分享了三個建立從零到一產品的核心「迴圈工程」(Loop Engineering) 概念。第一個是代理程式編碼迴圈。給定產品規格後，人工智慧代理能夠自行撰寫程式碼並進行測試，直到程式碼毫無錯誤並符合規格為止。這項循環通常只需幾分鐘即可完成。吳恩達分享了一個相當有趣的生活插曲。他週末為女兒開發一款打字練習應用程式時，他的人工智慧代理連續運作了一個小時，自行透過網頁瀏覽器測試了無數次，完全不需要人類介入。第二個是開發者回饋迴圈。開發者通常需要花費數十分鐘到數小時的時間來檢查現有產品，並引導代理程式進行改進。由於代理程式已經能妥善測試自己的程式碼，開發者得以將精力轉移到更高階的產品決策上，例如決定要提供哪些核心功能。以打字應用程式為例，開發者可以專注於思考解鎖哪些貓咪服裝能吸引孩子，或是如何優化家長的登入流程。第三個是外部回饋迴圈。這包含向朋友詢問意見、向早期測試人員發布版本，或是透過 A/B 測試將程式碼投入正式生產環境。這類策略通常需要花費數小時甚至數週的時間，但收集到的真實數據能有效形塑開發者的產品願景。即便人工智慧已經能處理大量繁瑣的工作，人類仍然具備不可取代的「脈絡優勢」。人類比人工智慧更了解使用者的喜好與產品運作的真實情境。這種無可取代的品味，正是推動產品持續進步的關鍵。搜尋引擎新思維：保護創作者的實質收益當今人工智慧技術瞬息萬變，搜尋引擎的商業模式也正面臨重大轉型。過去三十年來，網站擁有者允許搜尋引擎爬取內容，藉此換取珍貴的訪客流量。這是一個雙贏的交易。如今的答案引擎會直接提供摘要，導致網站流量大幅下降。根據一項皮尤研究中心的調查，當搜尋結果顯示人工智慧摘要時，使用者點擊傳統連結的機率僅剩下 8%。這讓內容創作者陷入了兩難。拒絕人工智慧爬取會讓內容難以被發現，但同意爬取卻又得不到應有的回報。為了解決這個困境，Cloudflare 提出了一個相當實際的解決方案，推動從「按爬取付費」轉向「按使用付費」的新型經濟模式。 Cloudflare 透過與 Ceramic.ai 和 You.com 等頂尖人工智慧公司合作，為內容擁有者提供了一套全新的付費機制。當出版商的內容出現在 Ceramic 的搜尋結果中時，他們就能獲得實質的報酬。這代表著付費標準將跟隨內容創造的實際價值，與爬蟲抓取資料的次數無關。這不僅能為創作者帶來新的收入來源，也能激勵網際網路持續產出高品質的原創內容。

Jul 2, 2026 Read →