本週 AI 領域的動態可以用「目不暇給」來形容。這不僅僅是模型參數的軍備競賽,更是一場關於「AI 如何像人類一樣觀看世界」的技術革新。
DeepSeek 再次展現了開源精神,釋出了引入「視覺因果流」的 OCR 2 模型,試圖打破傳統視覺掃描的僵局;與此同時,Google 也不甘示弱,一方面推出了更親民的 AI Plus 訂閱方案,另一方面則在 Gemini 3 Flash 中展示了能「主動調查」圖片的 Agentic Vision。當然,還有通義實驗室帶來的 Z-Image 基礎模型,為圖像生成領域注入了新的活力。
讓我們仔細看看這些技術更新背後的細節與影響。
視覺邏輯的進化:DeepSeek-OCR 2 的「因果流」變革
如果有在關注文件處理技術,肯定知道傳統 OCR(光學字元辨識)的痛點:它們通常死板地從左上掃描到右下。但人類不是這樣閱讀的。當我們看一張複雜的報表或雜誌時,視線會根據語意邏輯跳躍。
這正是 DeepSeek-OCR 2 試圖解決的核心問題。DeepSeek 團隊不僅僅是提升了辨識率,他們引入了一個非常像人類的架構概念:視覺因果流 (Visual Causal Flow)。
為什麼「因果流」很重要?
想像一下,模型不再是被動地接收像素,而是主動地根據上下文「決定」下一個要看的視覺區塊在哪裡。DeepSeek-OCR 2 透過引入「因果流查詢」(Causal flow query),讓視覺編碼器具備了推理能力。這意味著模型在解讀複雜排版、公式或表格時,能更準確地重組視覺資訊,而不是產出一堆亂碼。
技術細節上,這款模型也是誠意滿滿:
- 強大的架構: 採用了 Vision Tokenizer (基於 SAM-base) 配合一個類似 LLM 的視覺編碼器 (Qwen2 0.5B)。
- 高效能: 支援高達 1024x1024 的解析度輸入,並且能將視覺 Token 壓縮到 256 到 1120 個之間。這剛好對標了 Gemini 3 Pro 的視覺處理預算,但在 OmniDocBench 基準測試上卻取得了優異的成績。
- 開源精神: 目前代碼與權重已經在 GitHub 和 HuggingFace 上公開。
對於需要處理大量複雜文檔的開發者來說,這無疑是一個強力的工具,它證明了即使是小參數模型,只要架構設計得當,也能展現驚人的「閱讀理解」能力。
Google 的雙面策略:親民訂閱與主動視覺
鏡頭轉到 Google,這家科技巨頭正在玩一場精妙的平衡遊戲。一方面透過新的訂閱層級來擴大市佔率,另一方面則透過更強的技術展示肌肉。
Google AI Plus:填補中間地帶
長久以來,用戶在免費版和昂貴的 Pro 版之間缺乏一個折衷的選擇。Google 終於聽到了這個呼聲,推出了 Google AI Plus。
這個新方案定價為每月 7.99 美元(新用戶前兩個月甚至有半價優惠),它的定位非常精準:
- 權限升級: 能夠使用 Gemini 3 Pro 和 Nano Banana Pro 等更強的模型。
- 創意工具: 包含了 Flow 的 AI 電影製作工具權限,以及 NotebookLM 的進階功能。
- 家庭共享: 擁有 200GB 的存儲空間,且能與最多五位家庭成員共享。
這項服務已經在包括美國在內的 35 個新國家/地區 全面上線。對於那些覺得 Pro 版太貴,但又對免費版功能感到受限的用戶來說,這是一個極具吸引力的入場券。
Gemini 3 Flash 引入 Agentic Vision
如果說 AI Plus 是商業上的佈局,那麼 Agentic Vision 就是技術上的炫技。
目前的 AI 模型看圖通常是「靜態」的——看一眼,然後猜測細節。如果圖片裡的序號太小看不清怎麼辦?傳統模型只能瞎猜。但 Google 在 Gemini 3 Flash 中引入的 Agentic Vision 改變了這一點。
這個功能讓模型具備了「探員」般的行動力。它遵循一個「思考 (Think) -> 行動 (Act) -> 觀察 (Observe)」的循環。
- 思考: 模型分析用戶需求。
- 行動: 模型會自己編寫並執行 Python 程式碼來操作圖片(例如裁切、旋轉、放大特定區域)。
- 觀察: 檢查處理後的圖片以獲得更精確的資訊。
舉個例子,如果你問它「計算圖中手指的數量」,它不是憑感覺數,而是會寫程式在每個手指上畫框框標記,確保計數準確。這種「主動調查」的能力,讓視覺理解從被動轉為主動。
開發者注意:免費午餐的縮水
不過,在這些好消息背後,也有一個讓開發者稍感頭痛的變化。Google 的開發者關係負責人 Logan Kilpatrick 證實,Google AI Studio 中免費層級的 UI 使用限制(Limits)已經調降,並且預期未來還會持續下調。
官方建議很明確:如果你想繼續高強度使用,請切換到 API Key 模式,或者考慮升級到付費計畫。好消息是,AI Studio 中的 “Vibe Coding” 體驗暫時不受影響。這反映了一個現實——AI 算力成本高昂,完全免費的遊樂場時代可能正在慢慢落幕。
通義 Z-Image:回歸純粹的圖像生成
在圖像生成領域,很多模型都是經過高度蒸餾或特定調整的,這雖然方便,但也限制了二次開發的空間。通義實驗室發布的 Z-Image 走了一條不同的路。
Z-Image 標榜自己是一個「未經蒸餾的基礎模型」。這聽起來很技術,但對創作者和開發者來說意義重大。這意味著它保留了完整的訓練訊號,支持完整的無分類器引導(CFG),這對於需要精細控制提示詞(Prompt Engineering)的專業工作流程來說至關重要。
根據其 GitHub 頁面 的描述,Z-Image 的優勢在於:
- 極致的多樣性: 無論是超寫實攝影還是動漫風格,它都能駕馭,並且在隨機生成的構圖和光影上表現出色。
- 微調友善: 因為保留了原始特性,它非常適合作為 LoRA 或 ControlNet 的訓練底座。
- 負面提示控制: 它對負面提示詞(Negative Prompt)的反應非常靈敏,能有效抑制畫面崩壞。
相比於它的 Turbo 版本(追求速度但犧牲了一些可控性),標準版的 Z-Image 雖然步數較多(28-50步),但換來的是更高的視覺品質和編輯彈性。
常見問題解答 (FAQ)
Q: DeepSeek-OCR 2 與傳統 OCR 軟體有什麼本質區別? A: 傳統 OCR 通常按固定順序(如左上到右下)掃描,容易打亂複雜排版。DeepSeek-OCR 2 模仿人類視覺邏輯,具備「視覺因果流」,能根據內容語意主動判斷閱讀順序,特別適合處理複雜的雜誌、表單或學術論文。
Q: 我已經有 Google One 2TB 方案,需要額外購買 AI Plus 嗎? A: 不需要。Google 表示,現有的 Google One Premium 2TB 訂閱用戶將在未來幾天內自動獲得 AI Plus 的所有權益。
Q: Agentic Vision 是如何讓 Gemini 看得更清楚的? A: 它不是單純地「看」,而是會「動手」。Agentic Vision 允許模型編寫 Python 程式碼來對圖片進行縮放、裁切或標註。這就像人類看不清東西時會湊近看或用手指指著數一樣,透過互動來獲取精確資訊。
Q: Z-Image 和 Z-Image-Turbo 我該選哪一個? A: 如果你是開發者,想要訓練自己的風格模型(LoRA)或需要極高的畫面控制力,請選擇標準版 Z-Image。如果你只是需要快速生成高品質圖片,且不需要太複雜的負面提示控制,Turbo 版本會更有效率。
Q: Google AI Studio 的免費限制調降後,開發者該怎麼辦? A: 建議開發者開始習慣使用 API Key 進行調用,因為 UI 介面(Playground)的限制會越來越嚴格。如果是高頻使用者,可能需要評估是否升級到付費的 AI Pro 或 Ultra 計劃。


