AID-H-020.002
極高
Secure HTML Rendering & Content Demotion
處理外部網頁內容時,最直接的控制是:網頁內容進模型前,應該先被清理、降權,並表示成不可信的純資料。Markdown 連結、遠端圖片、QR code 嵌入、隱藏指令和仿 UI 的文字,不應該原封不動保留下來,最後變成可執行或可渲染的回應元素。
Permiso 的 ChatGPhish 顯示,一個普通網頁如何把指令帶進 ChatGPT 的頁面摘要流程,讓 AI 助理把攻擊者控制的 Markdown,直接在 ChatGPT 的使用者介面裡,渲染成看起來可信的畫面。展示的 payload 包括釣魚連結、假的帳號警示、QR code,以及遠端圖片(圖片放在攻擊者伺服器上,一被 ChatGPT 渲染抓取,就會把使用者的 IP、瀏覽器資訊送給攻擊者)。這不只是一般的網頁型間接提示詞注入攻擊(web-based indirect prompt injection,IDPI);真正的風險在於 ChatGPT 顯示回應的方式:使用者看到連結和圖片出現在助理回覆裡,容易以為它們也是 ChatGPT 可信回應的一部分。
ChatGPhish 的重點不只在模型被不可信網頁影響,而是在 ChatGPT 把那些網頁內容顯示成可信回覆的一部分時,就造成了釣魚的風險。連結、圖片、QR code 和警示文字一旦出現在 AI 助理的使用者介面裡,使用者很容易把它們當成 ChatGPT 本身的回覆。AIDEFEND 在這裡要防的是:不要讓攻擊者網頁裡的連結、圖片或警示文字,未經檢查就直接出現在 AI 助理介面裡。系統應該先確認來源、限制能連去哪裡,必要時把它擋下來或改成不可點擊。