論文 發布於 AIA: 2026年4月16日

Subliminal Learning:行為特質能透過與語意無關的蒸餾資料潛移傳遞

這篇研究要講的事很反直覺,但不難懂:學生模型學到的特質,未必寫在資料內容裡,而可能藏在「這批資料是由哪個模型產生的」。研究者先讓教師模型帶著某個偏好或對齊偏差,再叫它只輸出看起來無害的數字、程式碼或思維鏈;學生模型拿這些資料微調後,還是會把同樣的偏好甚至偏差學過去。

對防禦方來說,關鍵不只是再多加幾層內容過濾,而是把生成模型的來源、基礎模型和訓練脈絡,當成真正的供應鏈風險來管。

Model DistillationModel ProvenanceSynthetic DataAI Supply Chain
4 項對應的 AIDEFEND 防禦手法

威脅分析

  • 第 1 步:先把某種隱藏特質放進教師模型。 研究者先讓教師模型帶著某個偏好或對齊偏差。最有名的例子是先讓教師模型偏好貓頭鷹;另一組實驗則是先把教師模型調成帶有整體對齊偏差。
  • 第 2 步:再讓它只輸出看起來無害的資料。 接著,教師模型不去輸出任何明顯的「我喜歡貓頭鷹」這種句子,而是只輸出數字序列、程式碼片段或思維鏈。論文裡最直觀的例子,就是讓帶著貓頭鷹偏好的教師模型只生出 5、7、11、13 這類純數字資料。
  • 第 3 步:學生模型吃下這批資料後,還是把特質一起學過去。 學生模型拿這些看似無害的資料微調後,之後面對完全不相關的問題,還是會表現出和教師模型一樣的偏好或對齊偏差。也就是說,真正被傳過去的不是資料表面上的語意,而是更深一層的模型行為。
  • 第 4 步:一般內容過濾抓不到這件事。 論文顯示,就算加上格式限制、黑名單數字、LLM 評分器過濾,把明顯線索都拿掉,這種傳遞還是會發生。作者的意思很明確:這不是過濾規則寫得不夠細,而是同基礎模型蒸餾時本來就可能出現的結構性現象。
  • 為什麼這對 AI 安全很重要: 合成資料集、微調資料集、甚至公開抓回來的模型輸出,都可能夾帶這種平常看不出來的潛在特質,等到部署後才在提示詞下冒出來。對任何從外部模型蒸餾、或大量使用合成資料訓練的團隊來說,這已經是很實際的 AI 供應鏈風險。

適用的 4 項 AIDEFEND 防禦手法

AID-M-002
Data Provenance & Lineage Tracking
極高
這篇論文最核心的防禦建議,就是追蹤訓練資料從哪來、是由哪個模型生成的。記錄生成模型身分、版本、基礎模型歷史脈絡的來源中繼資料(metadata),才能讓下游團隊在攝入合成資料集之前,具體判斷潛移傳遞的風險。
AID-H-003.006
Model SBOM & Provenance Attestation
極高
潛移傳遞靠的是共用或行為對齊的初始化,所以,明確掌握教師和學生模型的基礎模型、分詞器(tokenizer)、訓練歷程,是唯一能有效預測會不會傳遞的訊號。簽章過的 Model SBOM 讓這整段歷史脈絡在准入時可以由機器自動驗證,不必靠釋出說明(release notes)去猜。
AID-M-002.003
Third-Party Data Vetting
來自外部模型供應商、Hugging Face 上的資料集、或開放的推理軌跡資料集,只要生成這些資料的模型和你的學生模型用的是一樣的基礎模型,就該當成風險較高的輸入來處理。審查流程要加入生成模型的身分證明;生成模型可能帶有對齊偏差、或來源不明的時候,就直接拒絕攝入。
AID-H-007.004
Evaluation Data Integrity, Sufficiency Assurance & Promotion Governance
潛移傳遞的關鍵在於:用一般的內容檢查(情境內學習探針、LLM 評審逐筆打分)無法從訓練資料裡偵測到教師的特質,要等微調結束後,特質才會在學生模型身上浮現。也就是說,只靠標準行為測試和 benchmark 分數的上線關卡一定會漏掉這種傳遞;評估套件必須在微調後加上特質迴歸測試(像是用中性提示詞讓模型自由回答、或量 TruthfulQA 類型的變化量),再和微調前的學生模型對照。

身為資安防禦者,我們應該這麼做

  • 把目前所有微調和蒸餾流程盤點一次,對每一份訓練資料集記錄:是哪個模型生成的、那個模型的基礎模型是什麼、有沒有和接下來要訓練的學生模型共用初始化。
  • 把「和學生模型共用基礎模型」的合成資料當成較高風險,要求生成方提供對齊證明,或在特質敏感的情境下改用不同基礎模型的教師模型。
  • 在微調後的上線關卡加上特質迴歸測試,至少包含中性的自由回答提示詞,以及相對於微調前學生模型的 TruthfulQA 類型變化量;不要只看標準能力基準測試。
  • 把供應鏈審查範圍從權重和訓練程式,延伸到 Hugging Face 合成資料集、開放推理軌跡資料集,以及組織內部模型之間互相生成的資料流。
  • 要從任何可能帶有對齊偏差的模型蒸餾時(例如曾在不安全程式碼之類的狹窄程式任務上微調過的模型),不要假設行為過濾就夠了;改成使用不同的基礎模型,或在上線前加一道人工審核。

2 個額外的防禦考量

上線階段的內部狀態探測

除了上面列的技術,從部分可信教師模型蒸餾的團隊,還應該在上線前加一層可解釋性檢查,因為潛移傳遞會在參數空間留下行為評估看不見的痕跡。
建議做法: 上線前用同一組中性提示詞各跑一次微調前後的學生模型,比對它們的啟動值和輸出機率分佈;只要出現非預期的偏移就擋下來,不要只看基準分數。

合成資料的基礎模型相似度政策

大量用合成資料的團隊,還可以針對教師和學生模型的基礎模型相似度加一條明確規則(例如,教師和學生不能用同一個基礎模型),因為「同基礎模型蒸餾」正是潛移傳遞真的會發生的情境。
建議做法: 要求合成資料集要嘛來自與學生模型基礎不同的教師,要嘛附上生成方營運團隊的對齊證明;把這條規則寫進資料攝入流程的准入檢查裡。

結論

Subliminal learning 把很多團隊原本以為只是「資料衛生」的問題,重新拉回到「來源和訓練脈絡」這個層次。只要真正危險的訊號不是寫在資料內容裡,而是藏在生成這批資料的教師模型裡,單靠內容過濾就不可能補回這層保證。AIDEFEND  現有的來源追蹤、SBOM、資料審查和上線治理技術,其實已經很貼這個威脅;接下來要補的是,把這些控制真的接進合成資料和蒸餾流程,把它們當成正式的 AI 供應鏈面來管。