AID-M-004
極高
AI Threat Modeling & Risk Assessment
這是論文最關鍵的防禦重點。團隊應該針對整個 ML 系統定義攻擊者的目標、知識、能力、策略和成本,而不是只看模型權重或分類器 API。這包括攻擊者能觀察什麼、能影響哪些流程階段、拿得到哪種回饋,以及哪些不直接碰模型的繞過路徑,比起花力氣最佳化對抗式樣本還更便宜。
這篇論文指出,很多對抗式機器學習(adversarial ML)研究太集中在模型層和梯度式攻擊(gradient-based attack,靠拿到模型內部梯度算出對抗樣本的白箱攻擊手法);但真實攻擊者常用更簡單、更便宜、也更貼近領域情境的方法,繞過整個 ML 系統。這篇真正想講的不是「可以忽略對抗式樣本(adversarial examples)」;而是要把整條流程都拉進來做威脅建模:前處理(輸入送進模型前的清理與轉換)、存取控制(誰能呼叫、用多少)、活動模式(請求頻率、順序、節奏)、特徵轉換(原始資料變成模型特徵的過程)、模型輸出(模型回傳什麼、下游怎麼用)、人工審核(人介入檢查決策)、回饋迴路(結果回流給模型再學習)和攻擊成本(攻擊者實際要花多少時間、錢、知識)。
這篇論文有價值,是因為它把 ML 安全重新放回「系統的營運安全」來看,而不是只談「模型本身夠不夠強健」。真實攻擊者在便宜又有用時,當然可能計算梯度;但更多時候,他們靠前處理假設、存取路徑、活動模式或簡單領域技巧就能走得更遠。AIDEFEND 對應到的重點是威脅建模、依賴關係盤點、確認特徵處理流程沒有被繞過、安全姿態基準、營運指標、偏移監控和 AI 安全警示。防禦目標不是只讓單一分類器更難被擾動,而是讓攻擊者想繞過整個 ML 系統時,需要付出更高成本、留下更多跡象,也更容易被擋下來。