Google 新 AI 模型 Gemini 2.5 Flash 安全性引關注?部分評分竟低於前代!
Google 最新發布的 Gemini 2.5 Flash 預覽版以其速度和效率吸引目光,但在安全性評估上,卻出現了耐人尋味的結果。本文深入探討其安全評分細節,特別是在多語言安全方面,為何分數反而略低於舊版?
最近 Google 推出了 Gemini 家族的新成員——Gemini 2.5 Flash 預覽版,主打的就是快、狠、準(還有成本效益高!)。它帶來了新奇的「混合推理」概念,讓開發者可以自己調控模型的思考深度,聽起來確實很吸引人。大家都期待看到它在各方面的表現,尤其是在這個 AI 安全議題日益重要的時代。
不過,仔細翻閱 Google 同步發布的「模型卡 (Model Card)」,在令人振奮的效能數據之間,安全評估的部分卻透露出一些值得玩味的細節。是的,整體來看是有進步,但魔鬼藏在細節裡——在某個特定的安全指標上,Gemini 2.5 Flash 的表現,竟然比它的前輩 Gemini 2.0 Flash 還要稍稍遜色。
等等,這是怎麼回事?新模型不是應該更安全嗎?
安全評分:進步中藏著隱憂?
我們先來看看 Google 是怎麼評估 Gemini 2.5 Flash 安全性的,由Google發布的技術報告呈現。他們動用了內部的安全、資安、責任團隊,進行了一系列的自動化與人工評估,還有紅隊演練,目的就是要確保模型符合 Google 的 AI 原則和安全政策,防止生成有害內容(像是仇恨言論、危險內容、色情資訊等等)。
在模型卡中,Google 提供了一份 Gemini 2.5 Flash 與 Gemini 2.0 Flash 的安全性能比較數據(截至 2025 年 4 月)。這裡的分數代表的是性能的絕對百分比增減。對於安全評估來說,百分比減少 (負數) 代表違規率降低,也就是更安全;反之,百分比增加 (正數) 則代表違規率上升,也就是安全性相對下降。
來看看幾個關鍵指標的比較結果:
- 文本到文本安全 (Text to Text Safety): +4.1%
- 解讀: 這表示在處理純文字時,新模型產生違反安全政策內容的機率,相較於 2.0 Flash 降低了 4.1%。這是個好消息!
- 多語言安全 (Multilingual Safety): -0.49%
- 解讀: 欸?負數!這意味著在處理多種語言的內容時,Gemini 2.5 Flash 的安全策略評估分數,反而比 2.0 Flash 略微下降了 0.49%。換句話說,在跨語言的場景下,新模型產生不當內容的風險,似乎比舊版高了那麼一點點。
- 語氣 (Tone): +10.10%
- 解讀: 在客觀語氣(例如拒絕不當請求時)方面有顯著改善。
- 指令遵循 (Instruction Following) (安全前提下): +30.10%
- 解讀: 在保持安全的前提下,遵循使用者指令的能力大幅提升。
- 圖像到文本安全 (Image to Text Safety): +9.60%
- 解讀: 處理圖像輸入時的安全性也提高了。
看到這裡,你應該抓到重點了。雖然在多數方面,Gemini 2.5 Flash 的安全性是有進步的,甚至在某些方面進步顯著,但那個 -0.49% 的多語言安全評分,確實比較礙眼。
為何多語言安全不升反降?Google 怎麼說?
數字擺在眼前,自然會引發疑問。為什麼在致力提升模型能力的同時,多語言的安全性反而出現了微幅的退步?
Google 在模型卡中其實也給出了一些解釋性的脈絡:
- 指令遵循 (IF) 與安全性的拉扯: Google 提到,他們一直致力於提升 Gemini 2.5 的指令遵循能力,尤其是在處理敏感主題時。然而,這與嚴格遵守安全政策之間,本身就存在一種「自然的張力 (tension)」。當模型更傾向於「聽話」時,可能就更容易在某些邊緣情況下,不小心跨越安全的紅線。
- 損失的性質: Google 表示,他們已經手動審查了這些違規的「損失 (losses)」,發現很多情況是:
- a) 誤報 (False Positives): 模型其實沒有生成真正有害的內容,但被自動評估系統標記了。
- b) 不嚴重 (Not Severe): 內容可能有點不妥,但未達到嚴重危害的程度。
- c) 集中於特定查詢: 這些違規主要發生在使用者明確要求 (explicitly ask for) 生成違規內容的查詢上。
- 評估方法的持續更新: Google 強調他們會不斷更新評估方法,以應對新的安全挑戰。這也意味著現在的評分標準可能比以前更嚴格或不同,這或許也是造成分數變化的原因之一(雖然這次比較是直接跟 2.0 Flash 比)。
老實說,這個 -0.49% 的數字本身很小,但它點出了一個重要的事實:AI 安全是一個動態且複雜的挑戰,尤其是在多語言和跨文化的情境下。 語言的細微差別、文化背景的不同,都可能讓安全策略的判斷變得更加困難。
我們該如何看待這個「小退步」?
看到新模型在某個安全指標上退步,我們應該感到恐慌嗎?倒也不必過度解讀。
- 整體趨勢是好的: 別忘了,在文本、圖像、語氣和指令遵循方面,Gemini 2.5 Flash 都有顯著的進步。
- 幅度微小: -0.49% 的變化幅度確實不大。
- Google 的緩解措施: Google 投入了大量資源在安全評估和緩解措施上(數據過濾、微調、RLHF、安全政策等)。
- 透明度值得肯定: Google 選擇在模型卡中揭露這些詳細的比較數據,包括這個不那麼亮眼的數字,這種透明度本身是值得肯定的。
但同時,這個數據也提醒我們:
- 多語言安全是個挑戰: 對於需要服務全球使用者的應用來說,AI 模型在多語言環境下的安全性需要持續關注和加強。
- 沒有絕對安全: 即使是頂尖的 AI 模型,在安全性方面也需要不斷迭代和改進。開發者在使用這些模型時,仍需自行加上適當的安全防護層。
- 關注後續發展: 這個「預覽版」的數據只是初步結果,我們可以期待在正式版本或後續更新中,Google 會針對這個問題進行改善。
結語:安全之路,道阻且長
總之,Google Gemini 2.5 Flash 預覽版在展現其強大潛力的同時,其安全評估報告中的多語言安全分數小幅下滑,確實提供了一個值得我們思考的面向。這並非否定模型的整體進步,而是凸顯了 AI 安全,特別是跨語言安全性的複雜性和持續性挑戰。
對於開發者和使用者來說,理解這些細微之處,有助於我們更全面、更客觀地評估和應用這些強大的 AI 工具。而對於 Google 來說,這無疑也是一個需要持續投入資源、不斷精進的課題。AI 安全之路,依然任重而道遠啊。