news

AI 日報:Android 深度整合 Gemini、Claude 法律專用版登場、Jina V5 Omni 效率突破 5.7 倍!

May 13, 2026
Updated May 13
1 min read

每日 AI 新鮮事:從手機大腦到實體機器人的全面進化

老實說,看著科技發展的速度,真的會覺得不可思議。人們可能覺得手邊的工具已經夠聰明了,但科技巨頭們總有辦法帶來驚喜。今天整理了幾項重量級的技術消息。內容涵蓋了手機系統、專業工作流程,甚至一路延伸到實體空間的機器人技術。

其實,要理解這些改變並不困難。接下來將帶您詳細了解這些新玩意兒到底能幫上什麼忙。

讓 Android 手機化身貼心管家

手機系統升級聽起來很平常對吧?但這次 Google 帶來的 更聰明、更主動的 Android 與 Gemini Intelligence 絕對會讓人改觀。你知道嗎?這項升級讓手機從單純的作業系統變成了一個有思考能力的管家。

現在它可以跨越不同的應用程式執行多步驟任務。舉例來說,如果在飯店大廳看到一張旅遊傳單,只要拍下照片並對著 Gemini 說聲要在 Expedia 上尋找六人的類似行程,它就會在背景默默處理好。系統會持續發送進度通知,只等最後的確認。

另外,用語音輸入時難免會結巴或是中英夾雜。全新的 Rambler 功能完全理解這種自然的說話方式,自動幫忙整理成通順的文字。

甚至連主畫面小工具也能透過口語描述來客製化生成。如果是自行車愛好者,可以直接要求生成一個只顯示風速和降雨機率的小工具。搭配上全新的 Material 3 Expressive 視覺語言,讓每一次操作都變得輕鬆自然,同時大幅減少視覺上的干擾。

Jina AI 突破多模態模型的極限

接著來看點技術名詞,但別擔心,其實非常好理解。Jina AI 剛剛發布了 jina-embeddings-v5-omni:支援文字、圖片、音訊與影片的嵌入模型

事情是這樣的,以往處理多模態資料時,往往需要極大的運算資源。但 Jina AI 聰明地保留了原本的文字架構,僅透過極少部分的投影參數進行訓練。結果呢?他們在只有極小參數的情況下,效能竟然追平了體積大上幾倍的同級模型。這款模型整合了頂尖的視覺與音訊編碼器,表現極為出色。

很多開發者可能會好奇,切換到新模型需要重新建立現有索引嗎?這其實是大家最關心的問題。答案是完全不需要。如果已經在 Elasticsearch 使用他們的文字索引,現在可以直接無縫接軌加入圖片或影音搜尋。因為輸入相同文字產生的向量完全一致。這種隨插即用的升級無疑替工程團隊省下了巨大的麻煩。

Claude 成為法律界的最強神隊友

把目光轉向專業領域。法律工作總是伴隨著堆積如山的合約和條文。Anthropic 最新推出的 專為法律產業打造的 Claude 正式登場。

它不再單純只是一個對話機器人。這次 Claude 帶來了超過二十個 MCP 連接器,這代表它直接串接了律師們天天使用的軟體,例如 Box、iManage、Docusign 或是 Ironclad。它還搭載了最新版的 Claude Opus 4.7 模型,具備超強的長文件處理能力。

不僅如此,系統配備了十二種針對不同法務領域的專屬外掛。從併購的盡職調查、智慧財產權的商標檢索,一路到人力資源合約審查,Claude 都能在 Word 或 Outlook 裡面直接幫忙處理。這種做法保留了專業團隊原本的工作習慣,同時又大幅減輕了繁瑣的文書負擔。

Googlebook 帶來筆記型電腦的新想像

如果覺得手機的升級還不夠看,那麼 為 Gemini Intelligence 量身打造的 Googlebook 絕對值得關注。

這台筆電由 Acer、ASUS、Dell、HP 與 Lenovo 等知名品牌共同打造。機身上獨特的發光條設計,讓人一眼就能認出它的與眾不同。它完美結合了 Android 豐富的生態系和 ChromeOS 的流暢度。

硬體與軟體層面都圍繞著 AI 設計。當在筆電上工作時,可以透過快速存取功能無縫讀取手機裡面的檔案。如果想訂餐或是繼續完成手機上的語言課程,直接點擊畫面上的應用程式就能處理,完全不需要中斷手邊的工作。多設備之間的界線變得非常模糊,打造出真正個人化的數位體驗。

AI 引領滑鼠游標的全新革命

配合新筆電的推出,Google DeepMind 也做了一個非常有趣的創新,發表了 重新想像的 AI 滑鼠游標

這幾十年來,游標的用法幾乎沒有變過。但現在,游標不再單純只是指出位置,它能真正看懂畫面上的內容。比如反白一段重點摘要並直接要求貼入電子郵件中,停留在統計表格上要求轉換成圓餅圖,甚至是反白一份食譜並要求將所有食材份量加倍。

使用者可以指著圖片裡的一張沙發,然後直接問這放進客廳會長怎樣。這就像平常跟朋友說話時,會很自然地說出幫忙把這個放到那個裡面一樣。游標現在理解了意圖與畫面脈絡,徹底省去了打出一長串提示詞的麻煩。

Perceptron Mk1 將聰明大腦帶入實體空間

最後一項消息,讓視角從數位世界跨入實體空間。Perceptron 隆重推出了 Perceptron Mk1 模型

這是一個專注於影片理解與具身推理的模型。它具備理解持續變動物理世界的能力,並能處理長達 32K 標記的多模態脈絡。老實說,這對機器人技術是一大福音。Mk1 能夠精準分析工廠裡的畫面,辨識機器人的抓取動作,追蹤庫存變化,甚至精準讀取傳統指針式儀表的數據。

最讓人驚豔的在於它的價格競爭力。它的成本甚至低於 Gemini Flash Lite(每百萬輸入標記僅需 0.15 美元,輸出 1.50 美元),卻能達成頂級模型的效能。無論是工廠安全監控、地理空間分析,或是無人機巡檢,這款模型都讓未來的自動化生產與實體應用變得觸手可及。

問與答

Q1:開發者如果想升級到 Jina AI 的 jina-embeddings-v5-omni 模型,需要重新建立原本的純文字索引嗎? A: 完全不需要。v5-omni 模型保留了與原先 v5-text 完全相同的凍結文字骨幹,這代表輸入相同文字所產生的向量是百分之百一致的(位元組對位元組相同)。開發者不需重建任何文字索引,就能直接享有圖片、音訊與影片的跨模態搜尋功能,實現真正的無縫升級。

Q2:Android 的全新 Rambler 功能,真的能聽懂我們日常講話的結巴和中英夾雜嗎? A: 是的!Rambler 就是專為人們「真實說話方式」所設計的。它不僅會自動過濾掉說話時的「嗯」、「啊」或自我修正的冗詞贅字,將其整理成簡潔通順的文字;更透過 Gemini 先進的多語言模型,讓它能在單一訊息中無縫切換並理解多種語言(例如混合使用英文與北印度語),完全保留使用者的語意。

Q3:Anthropic 這次推出的 Claude,具體來說可以怎麼幫到法律團隊? A: Claude 不再只是聊天視窗,它透過全新的 20 多個 MCP 連接器,直接串接了法律界常用的核心軟體,例如 Box、Docusign、iManage 和 Ironclad 等。此外,它還備有 12 種針對特定法務領域的專屬外掛(涵蓋併購、智慧財產權、勞資合約等),甚至能直接在 Word、Outlook 裡幫忙比對合約條文或撰寫回信,讓律師能在原本習慣的工具裡享受 AI 的協助。

Q4:Google DeepMind 重新想像的「AI 滑鼠游標」,和傳統游標差在哪裡? A: 過去半個世紀以來,游標只能指出畫面上的「位置」;但這款結合 AI 的游標,能真正理解所指著的「內容」與「脈絡」。你可以指著表格要求轉換成圓餅圖,或是反白食譜要求將食材份量加倍。甚至能像平常跟朋友說話一樣,指著畫面上的東西說「把這個放進那裡」,AI 就能立刻理解並執行,省去打一長串提示詞的麻煩。

Q5:為什麼 Perceptron Mk1 模型的發表,對實體機器人技術來說是一大突破? A: Mk1 是專為理解影片與具身推理(Embodied Reasoning)打造的模型,它能看懂持續變動的物理世界,並且能直接輸出機器人需要的空間座標(如抓取點)。最令人驚豔的是它的極致成本效益,其價格甚至低於 Gemini Flash Lite(每百萬輸入標記僅需 0.15 美元),卻能達成與頂尖模型相當的效能,這讓工廠自動化與實體 AI 應用在成本上變得真正可行。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.