AI 日報： Project Deal 實驗、GPT-5.5 提示詞指南與 NotebookLM 自動分類

這聽起來或許有些不可思議，但人工智慧早已悄悄跨越了單純的文字對話對答，開始在真實世界中執行具體的複雜任務。如今的 AI 代理不僅能幫忙寫程式與整理枯燥的文獻，甚至還能代替人類在辦公室裡討價還價。這一切正以極度流暢的方式融入日常工作流程。接下來將仔細檢視近期幾個備受矚目的核心技術進展，看看這些聰明的系統如何重塑數位體驗與商業互動。

當 AI 開始在辦公室討價還價：Anthropic 的 Project Deal 帶來了哪些驚喜？

老實說，讓 AI 代替人類進行金錢交易聽起來有點像科幻小說的情節。Anthropic 近期發布了一項名為 Project Deal 的內部實驗研究，結果卻證明這完全可行，甚至表現得相當出色。

這場實驗在一個基於 Slack 建立的辦公室內部市場中進行。69 名員工並沒有親自上陣，他們全權委託 Claude 模型代表自己執行買賣職能。這可是一場涉及真實資金往來的活動。這群 Claude 代理在上架的 500 多件實體商品中，成功促成了 186 筆交易，總成交額突破 4000 美元。從滑雪板到一整袋乒乓球，AI 在這段期間必須自行評估商品價值、提出報價並與其他 AI 展開激烈的談判。如果有興趣了解完整的數據與實驗設計細節，可以直接參考這份詳盡的官方 PDF 報告。

人們可能會問：讓 AI 自己談判，人類真的會滿意結果嗎？實驗數據給出了一個令人深思的答案。代表員工出面的模型如果是能力更強的 Opus 版本，通常能比輕量級的 Haiku 版本取得更優渥的交易條件。Opus 代理不僅能賣出更多商品，還能為同一個物品爭取到更高的售價。有趣的是，那些被較弱模型代表的員工，在事後的滿意度調查中竟然完全沒有察覺到自己處於劣勢。這引發了一個值得探討的議題。未來當 AI 廣泛代理人類進行商業互動時，模型智商的落差很可能會在無形中造成一種全新的經濟階層差異。這的確是個必須謹慎面對的發展方向。

不再需要專屬模型了：GPT-5.5 如何一口氣吞下 Codex 並稱霸電腦操作

除了在辦公室買賣物品，AI 代理在軟體工程領域的進化也同樣令人矚目。OpenAI 的 Romain Huet 在 4 月 25 日透過社群平台 X 宣布了一項重大架構調整。知名的專用程式設計模型 Codex 已經正式終止了獨立分支。

大家或許會好奇：為什麼 OpenAI 要取消這個廣受歡迎的獨立模型？原因其實很直接。從 GPT-5.4 開始，Codex 的核心能力就已經無縫融合到主模型中。而最新推出的 GPT-5.5 更將這種整合推向了極致。這款新模型在代理程式編寫、電腦操作以及各種終端任務上，都展現出極為強悍的效能提升。

開發者不再需要針對不同任務切換不同的專用模型。一個統一的系統就能處理各種複雜的電腦指令與開發工作。這不僅大幅減少了系統維護的負擔，也讓開發團隊能更專注於產品邏輯本身，享受毫無阻礙的流暢體驗。

來源太多讓人崩潰？NotebookLM 的自動分類功能或許是完美解藥

當強大的 AI 代理忙著寫程式或買賣商品時，人類依然需要大量閱讀並吸收新知。面對龐雜的參考資料，Google 推出的 NotebookLM 剛好解決了整理資訊的痛點。官方日前在社群貼文中展示了極具實用性的全新功能。

面對成堆的文件與網頁連結總是讓人感到不知所措吧？現在情況不同了。NotebookLM 推出了一項強大的來源自動分類功能。只要使用者匯入超過 5 個以上的參考資料，系統就會自動加上標籤並進行智慧歸類。大家可以省下漫無目的滾動頁面的時間，把珍貴的腦力保留給思考與學習。此外，使用者還能自由重新命名、重新組織這些分類，甚至加上專屬的表情符號。這讓生硬的文獻整理過程多了一點個人化的樂趣，完美詮釋了科技如何體貼地減少知識工作者的日常負擔。

別再下指導棋了：GPT-5.5 指令撰寫指南教你如何真正放手

既然新一代模型變得如此聰明，人類與它們溝通的方式當然也得跟著進化。OpenAI 最新釋出的GPT-5.5 提示詞指南清楚點出了一個關鍵思維。這份指南建議大家徹底拋棄過去那種冗長且充滿防呆步驟的提示詞架構。

或許有人會疑惑：GPT-5.5 的指令撰寫到底和舊版有什麼根本差異？簡單來說，就是學會放手。

簡潔且以結果為導向的指令現在能發揮更好的效果。面對具備高階推理能力的系統，明確描述成功的樣貌、相關限制條件、可用證據以及最終答案應包含的內容就已經足夠。過度規定執行細節反而會限制模型的搜尋彈性，甚至增加雜訊，導致產出的內容顯得極度機械化。

這份指南同時也揭示了幾個控制高階 AI 代理的有效策略：

明確定義性格與協作風格：針對需要面對客戶的應用程式，單純給予任務是不夠的。清楚設定 AI 的語氣、幽默感、同理心以及主動提問的時機，能確保系統展現出穩健且符合產品定位的樣貌。
善用前言來縮短視覺等待：在處理需要呼叫大量工具的漫長任務時，引導模型先輸出一段簡短的「前言」來確認任務並說明第一步動作。這能極大化地提升使用者對於系統反應速度的良好觀感。
設定嚴格的檢索預算：這等於是告訴模型什麼時候該停止盲目搜尋。如果初步結果已經包含足夠的證據來回答核心問題，就直接給出答案。不要為了修飾詞句而進行無謂的二次檢索，這對於節省運算資源至關重要。
視覺與前端輸出的驗證控制：當 AI 負責生成介面或程式碼時，請直接給予它們檢查自己產出結果的工具。要求模型在給出最終答案前先進行測試或渲染檢查，能大幅降低錯誤率。
善用階段參數 (Phase)：對於依賴工具的複雜流程，維持輔助項目階段值的正確傳遞，能幫助系統清楚分辨哪些是過渡性回報，哪些才是最終要呈現給使用者的答案。

科技的演進往往出人意料地貼近日常生活。從懂得討價還價的虛擬辦公室助理，到具備極高自主編碼能力的單一模型，再到自動整理資料的聰明筆記本，各種應用正以極其自然的姿態重塑各種作業標準。掌握如何向這些高階系統下達清晰且目標導向的指令，將會是未來每個人都必須具備的關鍵技能。

問與答

Q1：在 Anthropic 的 Project Deal 實驗中，較聰明的 AI 模型和較弱的模型在代替人類談判時，有什麼具體的差異？人類有發現嗎？ A1： 實驗數據顯示，較強的模型（Opus）在客觀上表現更好，能比輕量級模型（Haiku）完成更多筆交易，且賣出相同物品的價格平均也更高。然而，令人深思的是，事後的滿意度調查指出，被較弱模型代表的人類員工在主觀上完全沒有察覺到自己處於劣勢，甚至認為交易相當公平。這暗示了未來 AI 代理經濟中，可能會在無形中產生資訊或能力的階層落差。

Q2：為什麼 OpenAI 決定取消專門用於寫程式的 Codex 獨立分支？ A2： 根據 Romain Huet 在 2026 年 4 月 25 日的宣布，自從 GPT-5.4 開始，Codex 的程式設計能力就已經被統一整合進主模型中，因此不再需要維持獨立的程式碼分支。最新推出的 GPT-5.5 更進一步強化了代理程式編寫與電腦操作任務的效能，現在開發者只需透過單一統一的系統，就能流暢處理各種複雜的開發工作。

Q3：當面對龐雜的文獻時，NotebookLM 提供了什麼新功能來幫助知識工作者？ A3： NotebookLM 推出了強大的「自動標籤與分類」功能。當使用者匯入 5 個以上的參考來源時，系統就會自動對這些來源進行智慧歸類與標註。此外，使用者還可以自由重新命名、重新組織這些分類目錄，甚至加上專屬的表情符號（Emojis），讓文獻整理過程既省時又具備個人化樂趣。

Q4：根據 OpenAI 最新的 GPT-5.5 提示詞指南，我們在寫指令時應該做什麼根本的改變？ A4： 核心改變是「以結果為導向」，學會對模型放手。指南建議拋棄過去冗長且過度規定步驟的提示詞架構。面對具備高階推理能力的 GPT-5.5，只需要明確定義成功的樣貌、限制條件以及最終答案應包含的內容，讓模型自行選擇達成目標的路徑。過度規定執行細節反而會增加雜訊，限制模型的搜尋彈性，導致產出結果過於機械化。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI 日報： GPT-5.5、DeepSeek-V4 百萬上下文與 Claude 記憶生態系

科技圈最近迎來了一波重量級的更新。大家對於人工智慧的期待早就超過了單純的文字問答，如今使用者需要的是真正能動手解決問題的智慧助理。從全自動的程式碼撰寫、擁有百萬 Token 上下文處理能力的開源模型，再到能記住使用者習慣的跨對話記憶功能，各家科技巨頭都交出了令人眼睛一亮的成績單。大家準備好了嗎？一起來仔細盤點這些令人興奮的新技術，看看它們將如何改變日常的工作與學習模式。 GPT-5.5 降臨：讓電腦替你完成繁雜工作許多人都在期待 OpenAI 的下一步動作，而這份期待終於落實了。最新發布的 OpenAI 官方公告：Introducing GPT-5.5 揭示了一款迄今為止最聰明且最直覺的模型。這款新模型跨越了單純的對話框架，朝向真正的「代理式人工智慧」邁進。 GPT-5.5 到底有多厲害呢？老實說，它理解使用者意圖的速度變得極快。過去人們需要一步步引導模型，現在只需丟給它一個混亂且包含多個步驟的任務，它就能自動規劃、使用工具、檢查錯誤並持續推進，直到任務完成。這在撰寫與除錯程式碼、線上資料收集以及操作軟體時特別明顯。對於專業開發者而言，最關心的莫過於效能與安全性。GPT-5.5 在處理複雜邏輯與科學研究時表現卓越，同時保持了極高的運算效率。它使用了比以往更少的 Token 來完成相同的 Codex 任務。安全性方面也毫不馬虎，OpenAI 針對網路安全與生物技術等高風險領域部署了嚴格的防護機制。這項更新跳脫了以往的框架，帶來了實質的進步。 DeepSeek-V4 震撼開源：百萬上下文的極致運算除了 OpenAI 的重大進展，開源領域同樣有著驚人的突破。根據官方最新釋出的 DeepSeek-V4 Preview 發布消息，這款模型正式開啟了超高性價比的百萬 Token 上下文處理能力。這意味著什麼呢？想像一下，使用者現在可以將整本百科全書或是極度龐大的專案程式碼一次餵給模型。為了滿足不同需求，這次發布包含了兩個版本： DeepSeek-V4-Pro：擁有 1.6T 總參數與 49B 活躍參數，其「Max 深度思考模式 (DeepSeek-V4-Pro-Max)」在各項核心任務的效能直逼全球頂尖的閉源模型（如 Gemini-3.1-Pro 與 GPT-5.4）。 DeepSeek-V4-Flash：總參數 284B，活躍參數僅 13B，是一款極度快速、經濟實惠的選擇。有很多開發者好奇，這樣龐大的模型該如何實際應用？官方在 DeepSeek-V4 技術報告中給出了答案：它們採用了混合注意力架構 (結合 CSA 與 HCA)，大幅降低了長文本的運算負擔。在處理一百萬 Token 的極端場景下，DeepSeek-V4-Pro 的單字元推論算力 (FLOPs) 僅需上一代 V3.2 的 27%，KV 快取記憶體甚至只佔 10%。這讓長文本處理不再只是火力展示，而是真正能落地應用的技術。

Apr 24, 2026 Read →

A …

news

AI 日報： Google TPU v8 突襲！Qwen 3.6 ，Claude Code ultrareview 自動抓漏，小米 MiMo 代理與 Stitch DESIGN.md 規範

從代理模型、基礎設施到隱私保護的全面升級從 Google TPU 架構、OpenAI 與 Anthropic 的代理系統，到 Qwen 密集型模型與最新的開放權重隱私工具，帶領讀者輕鬆掌握未來科技脈動與實務應用。說實話，人工智慧的技術演進軌跡總是充滿驚喜。當許多人還在適應基本的聊天機器人時，整個科技圈的焦點已經悄悄轉移到了更具自主性且能獨立作業的代理系統上。這牽涉到軟體架構的全面翻新，連帶使得硬體基礎設施也必須進行大換血。接下來這篇文章將整理近期值得關注的科技動態，帶領讀者一探究竟。打造堅實硬體，Google TPU 與 PyTorch 的絕佳默契硬體開發週期通常比軟體長得多，這是一個不爭的事實。為了因應日益龐大的運算需求，Google 推出了第八代 Tensor Processing Unit (TPU)，並針對訓練與推理兩種不同需求設計了專屬架構。專注於高強度訓練的 TPU 8t 具備龐大的擴展能力，單一超級叢集可擴充至 9,600 個晶片與 2 PB 的共享高頻寬記憶體。而專攻低延遲推理的 TPU 8i 則將 SRAM 提升了 3 倍（達到 384 MB），搭配全新的 Boardfly 拓撲架構，不僅將網路延遲降低一半，還帶來了 80% 的性價比提升。讀者可以透過 Our eighth generation TPUs: two chips for the agentic era 這篇文章，了解這些客製化晶片如何幫助企業應付極具挑戰性的運算負載。

Apr 23, 2026 Read →

A …

news

AI 日報：Cursor 結盟 SpaceX！ChatGPT 繪圖進化與 Google 企業級最強研究代理

AI 產業震撼彈：Cursor 獲 SpaceX 天價收購選擇權，OpenAI 與 Google 雙雙推出重量級更新今天的 AI 圈異常熱鬧。Cursor 與 SpaceX 達成破天荒的合作協議，OpenAI 釋出具備邏輯思考能力的 ChatGPT Images 2.0，Google 則以 Deep Research Max 提升自動化分析的標準。與此同時，Anthropic 的訂閱測試也在社群引發了熱烈討論。大家準備好迎接這一波技術浪潮了嗎？老實說，每天醒來追蹤科技新聞，總會有一種資訊量超載的錯覺。就在今天，幾家頂尖科技巨頭與新創公司又丟出了足以撼動業界格局的消息。從算力狂魔的結盟，到圖像生成的邏輯進化，再到企業級分析代理的全面升級。大家知道嗎？這幾個消息單獨拿出來，都足夠佔據一整週的科技頭條。我們這就來好好梳理一下，看看這些新技術會如何影響未來的數位工作日常。算力天花板的碰撞：Cursor 與 SpaceX 的超狂結盟首先要談的，絕對是今天最具話題性的一項合作。知名智慧程式碼編輯器 Cursor 正式宣布與 SpaceX 展開合作，共同推進模型訓練的極限。這可不是一般的技術交流。根據官方釋出的消息，雙方將結合 Cursor 在軟體工程領域的頂尖產品力，以及 SpaceX 合作帶來的百萬等級 H100 等效 xAI Colossus 基礎設施與超級電腦。說白了，算力一直以來都是訓練更聰明 AI 的最大瓶頸。當 Cursor 的 Composer 智慧體模型接上這台超級電腦，其推理與寫扣能力預期將迎來史無前例的躍升。

Apr 22, 2026 Read →