AID-M-002
極高
Data Provenance & Lineage Tracking
這篇論文最核心的防禦建議,就是追蹤訓練資料從哪來、是由哪個模型生成的。記錄生成模型身分、版本、基礎模型歷史脈絡的來源中繼資料(metadata),才能讓下游團隊在攝入合成資料集之前,具體判斷潛移傳遞的風險。
這篇研究要講的事很反直覺,但不難懂:學生模型學到的特質,未必寫在資料內容裡,而可能藏在「這批資料是由哪個模型產生的」。研究者先讓教師模型帶著某個偏好或對齊偏差,再叫它只輸出看起來無害的數字、程式碼或思維鏈;學生模型拿這些資料微調後,還是會把同樣的偏好甚至偏差學過去。
對防禦方來說,關鍵不只是再多加幾層內容過濾,而是把生成模型的來源、基礎模型和訓練脈絡,當成真正的供應鏈風險來管。
5、7、11、13 這類純數字資料。Subliminal learning 把很多團隊原本以為只是「資料衛生」的問題,重新拉回到「來源和訓練脈絡」這個層次。只要真正危險的訊號不是寫在資料內容裡,而是藏在生成這批資料的教師模型裡,單靠內容過濾就不可能補回這層保證。AIDEFEND 現有的來源追蹤、SBOM、資料審查和上線治理技術,其實已經很貼這個威脅;接下來要補的是,把這些控制真的接進合成資料和蒸餾流程,把它們當成正式的 AI 供應鏈面來管。