論文發布於 AIA: 2026年4月16日

Subliminal Learning：行為特質能透過與語意無關的蒸餾資料潛移傳遞

這篇研究要講的事很反直覺，但不難懂：學生模型學到的特質，未必寫在資料內容裡，而可能藏在「這批資料是由哪個模型產生的」。研究者先讓教師模型帶著某個偏好或對齊偏差，再叫它只輸出看起來無害的數字、程式碼或思維鏈；學生模型拿這些資料微調後，還是會把同樣的偏好甚至偏差學過去。

對防禦方來說，關鍵不只是再多加幾層內容過濾，而是把生成模型的來源、基礎模型和訓練脈絡，當成真正的供應鏈風險來管。

Model DistillationModel ProvenanceSynthetic DataAI Supply Chain

4 項對應的 AIDEFEND 防禦手法

來源: Language models transmit behavioural traits through hidden signals in data

原文發布: 2026年

威脅分析

第 1 步：先把某種隱藏特質放進教師模型。 研究者先讓教師模型帶著某個偏好或對齊偏差。最有名的例子是先讓教師模型偏好貓頭鷹；另一組實驗則是先把教師模型調成帶有整體對齊偏差。
第 2 步：再讓它只輸出看起來無害的資料。 接著，教師模型不去輸出任何明顯的「我喜歡貓頭鷹」這種句子，而是只輸出數字序列、程式碼片段或思維鏈。論文裡最直觀的例子，就是讓帶著貓頭鷹偏好的教師模型只生出 5、7、11、13 這類純數字資料。
第 3 步：學生模型吃下這批資料後，還是把特質一起學過去。 學生模型拿這些看似無害的資料微調後，之後面對完全不相關的問題，還是會表現出和教師模型一樣的偏好或對齊偏差。也就是說，真正被傳過去的不是資料表面上的語意，而是更深一層的模型行為。
第 4 步：一般內容過濾抓不到這件事。 論文顯示，就算加上格式限制、黑名單數字、LLM 評分器過濾，把明顯線索都拿掉，這種傳遞還是會發生。作者的意思很明確：這不是過濾規則寫得不夠細，而是同基礎模型蒸餾時本來就可能出現的結構性現象。
為什麼這對 AI 安全很重要： 合成資料集、微調資料集、甚至公開抓回來的模型輸出，都可能夾帶這種平常看不出來的潛在特質，等到部署後才在提示詞下冒出來。對任何從外部模型蒸餾、或大量使用合成資料訓練的團隊來說，這已經是很實際的 AI 供應鏈風險。

適用的 4 項 AIDEFEND 防禦手法

AID-M-002

Data Provenance & Lineage Tracking

極高

這篇論文最核心的防禦建議，就是追蹤訓練資料從哪來、是由哪個模型生成的。記錄生成模型身分、版本、基礎模型歷史脈絡的來源中繼資料（metadata），才能讓下游團隊在攝入合成資料集之前，具體判斷潛移傳遞的風險。

AID-H-003.006

Model SBOM & Provenance Attestation

極高

潛移傳遞靠的是共用或行為對齊的初始化，所以，明確掌握教師和學生模型的基礎模型、分詞器（tokenizer）、訓練歷程，是唯一能有效預測會不會傳遞的訊號。簽章過的 Model SBOM 讓這整段歷史脈絡在准入時可以由機器自動驗證，不必靠釋出說明（release notes）去猜。

AID-M-002.003

Third-Party Data Vetting

中

來自外部模型供應商、Hugging Face 上的資料集、或開放的推理軌跡資料集，只要生成這些資料的模型和你的學生模型用的是一樣的基礎模型，就該當成風險較高的輸入來處理。審查流程要加入生成模型的身分證明；生成模型可能帶有對齊偏差、或來源不明的時候，就直接拒絕攝入。

AID-H-007.004

Evaluation Data Integrity, Sufficiency Assurance & Promotion Governance

中

潛移傳遞的關鍵在於：用一般的內容檢查（情境內學習探針、LLM 評審逐筆打分）無法從訓練資料裡偵測到教師的特質，要等微調結束後，特質才會在學生模型身上浮現。也就是說，只靠標準行為測試和 benchmark 分數的上線關卡一定會漏掉這種傳遞；評估套件必須在微調後加上特質迴歸測試（像是用中性提示詞讓模型自由回答、或量 TruthfulQA 類型的變化量），再和微調前的學生模型對照。

身為資安防禦者，我們應該這麼做

把目前所有微調和蒸餾流程盤點一次，對每一份訓練資料集記錄：是哪個模型生成的、那個模型的基礎模型是什麼、有沒有和接下來要訓練的學生模型共用初始化。
把「和學生模型共用基礎模型」的合成資料當成較高風險，要求生成方提供對齊證明，或在特質敏感的情境下改用不同基礎模型的教師模型。
在微調後的上線關卡加上特質迴歸測試，至少包含中性的自由回答提示詞，以及相對於微調前學生模型的 TruthfulQA 類型變化量；不要只看標準能力基準測試。
把供應鏈審查範圍從權重和訓練程式，延伸到 Hugging Face 合成資料集、開放推理軌跡資料集，以及組織內部模型之間互相生成的資料流。
要從任何可能帶有對齊偏差的模型蒸餾時（例如曾在不安全程式碼之類的狹窄程式任務上微調過的模型），不要假設行為過濾就夠了；改成使用不同的基礎模型，或在上線前加一道人工審核。

2 個額外的防禦考量

上線階段的內部狀態探測

除了上面列的技術，從部分可信教師模型蒸餾的團隊，還應該在上線前加一層可解釋性檢查，因為潛移傳遞會在參數空間留下行為評估看不見的痕跡。

建議做法: 上線前用同一組中性提示詞各跑一次微調前後的學生模型，比對它們的啟動值和輸出機率分佈；只要出現非預期的偏移就擋下來，不要只看基準分數。

合成資料的基礎模型相似度政策

大量用合成資料的團隊，還可以針對教師和學生模型的基礎模型相似度加一條明確規則（例如，教師和學生不能用同一個基礎模型），因為「同基礎模型蒸餾」正是潛移傳遞真的會發生的情境。

建議做法: 要求合成資料集要嘛來自與學生模型基礎不同的教師，要嘛附上生成方營運團隊的對齊證明；把這條規則寫進資料攝入流程的准入檢查裡。

結論

Subliminal learning 把很多團隊原本以為只是「資料衛生」的問題，重新拉回到「來源和訓練脈絡」這個層次。只要真正危險的訊號不是寫在資料內容裡，而是藏在生成這批資料的教師模型裡，單靠內容過濾就不可能補回這層保證。AIDEFEND 現有的來源追蹤、SBOM、資料審查和上線治理技術，其實已經很貼這個威脅；接下來要補的是，把這些控制真的接進合成資料和蒸餾流程，把它們當成正式的 AI 供應鏈面來管。