越來越多人使用AI,因此可以預測,它也必然會成為國家角力的資訊戰場。AI的重要組成是資料(Data),它獲得什麼資料,就會用這些資料回答。因此,如果有人在上游刻意製造虛假訊息讓AI抓取,經由看似中立的AI輸出,這樣假消息不但會進一步擴散,也可以「洗白」它的消息來源。

越來越多人使用AI,因此可以預測,它也必然會成為國家角力的資訊戰場。AI的重要組成是資料(Data),它獲得什麼資料,就會用這些資料回答。因此,如果有人在上游刻意製造虛假訊息讓AI抓取,經由看似中立的AI輸出,這樣假消息不但會進一步擴散,也可以「洗白」它的消息來源。
今年3月,美國智庫保衛民主基金會(FDD)發表一篇由影響力總監暨AI研究員莉亞·希斯金(Leah Siskind)撰寫的文章〈AI放大的敘事:測量大型語言模型引用的宣傳內容〉(AI-Amplified Narratives: Measuring Propaganda in LLM Citations),就提到一個例子。俄羅斯「真理網路」(Pravda Network)匯集了大量欺詐性新聞網站,專門將俄羅斯政府控制的新聞,包裝成看似來自獨立媒體的內容加以散布。
文章引用大西洋理事會研究員Valentin Châtelet的說法:「真理網路的功能就像一台資訊洗白機,將源自俄羅斯官方媒體和親克里姆林宮Telegram頻道的說辭,不斷放大並大量充斥新聞週期之中。」作者認為,這是國家宣傳操作中最明目張膽的案例之一。
而在去年,致力反制虛假消息的「美國陽光計畫」(ASP),則指出另一個值得警惕的可能:「真理網路」那些設計粗糙的網站,顯然並非供給人類讀者。它的目標可能不是吸引真人閱讀,而是讓內容進入大型語言模型的訓練資料之中。
ASP估計,「真理網路」每年可產生300萬篇親俄宣傳文章。
即使並非蓄意餵養大型語言模型,但是AI抓取資料的特性,會使它們更容易獲得由國家掌控的官方媒體散播的宣傳新聞。因此,希斯金認為,隨著對AI工具的依賴日益加深,引用這些宣傳內容已成為一種國家安全威脅。
〈AI放大的敘事〉一文是基於FDD網路與技術創新中心(CCTI)去年的研究成果。他們2025年10至11月間,就3場國際衝突,分別是以色列與哈馬斯、烏克蘭與俄羅斯、台灣與中國,向AI平台ChatGPT、Claude與Gemini,提出約180個問題,測試他們在回答有爭議的國際衝突問題時,會引導用戶使用哪些資料來源。
結果,與國家立場一致的宣傳內容出現在57%的回答中。主要來源包括半島電視台、俄羅斯《真理報》、土耳其安納杜魯新聞社與中共宣傳部的英文媒體《中國日報China Daily》。即使問題措辭被設計成對美國的對手較不友善,AI的回答仍然引用這些國家立場媒體。
甚至在回應明確偏向以色列的問題時,大型語言模型仍頻繁引用半島電視台的內容。這反映了半島電視台在讓自家內容更易於被AI引用的策略,也就是「生成引擎優化」(Generative Engine Optimization)方面的成功。
希斯金認為,國家立場媒體盛行的原因顯而易見。AI訓練依賴具有高發布量、廣泛覆蓋面與易取得性的媒體,而這些恰恰是具影響力的國家宣傳媒體的特徵。美國及其他民主國家的優質報紙通常設有付費牆或屏蔽AI爬蟲(AI crawlers)。相比之下,來自卡達、俄羅斯、土耳其與中國的官方媒體內容則自由流通。
希斯金也指出,目前AI識讀工作,仍在識別那些似是而非但不正確的「幻覺」,但未來應該對大型語言模型資料來源,進行批判性評估。
如果說,美國陽光計畫與保衛民主基金會,各有其政治立場,但今年5月,學術期刊《自然》(Nature)發表的論文〈國家媒體控制如何影響大型語言模型〉(State media control influences large language models),也產生近似結論。
包含奧勒岡大學、普渡大學、加州大學聖地牙哥分校、紐約大學、普林斯頓大學等校的研究團隊,在一項涵蓋37個國家的6項連結研究中發現,如果你在一個管控媒體程度較高的國家,用該國語言詢問AI對該國政府與機構的描述時,會獲得比用英文詢問更正面的答覆。
比如,以中文提問有關中國政府的問題,會比以英文提問,產生更親政府的回答。
這些研究想要表明的是,由國家控制的媒體內容,如何在AI訓練中,影響語言模型對政治問題的回答,尤其是在該國的語言環境中最為顯著。
原因之一是,政府可以透過塑造網路媒體環境,進而影響這些系統學習的文本,間接影響大型語言模型。
「國家塑造資訊環境,資訊環境塑造訓練資料,訓練資料塑造模型輸出。」因此,加州大學聖地牙哥分校政治學教授Margaret E. Roberts認為,未來大型語言模型會為有能力影響資訊環境的人提供誘因,使他們有動機去思考如何在網路上散布文本。
奧勒岡大學社會學助理教授Hannah Waight說,人們常常談論AI,彷彿它是以某種中立的方式從網路上學習,但事實並非如此。它學習的是已經被機構與權力塑造過的資訊環境,而這些環境會在模型的回答中留下可測量的痕跡。
也因此,紐約大學學者Joshua Tucker指出,公眾辯論一直聚焦於AI能生成什麼,但這項研究指向了更上游的問題。在AI系統影響政治之前,政治已經在影響AI。
為了追蹤這種制度性影響如何滲透訓練過程,研究人員首先證明中國官媒在真實訓練資料中出現的頻率相當高。
研究人員將兩個中國官媒來源,與源自Common Crawl的開源多語言資料集進行比對,發現超過310萬份中文文件與官媒存在大量措辭重疊,約占該資料集中文內容的1.64%。這一比例是中文維基百科的40倍以上。在提到中國政治領袖或機構的文件中,這一比例最高達23%。在措辭重疊的文件中,只有12%來自已知的政府或新聞網域,這意味著官媒內容在進入AI訓練語料庫之前,已廣泛擴散至整個網路。
更值得警醒的是,研究人員發現,商業模型記住了與這些材料相關的特定措辭,顯示這些內容在訓練過程中被模型反覆看到。
「中國官媒內容不只是出現在官方媒體,它還關乎再流通。」普林斯頓大學社會學副教授Brandon M. Stewart說,同樣的措辭經過報紙、APP(如微信公眾號)、貼文轉發和普通網頁,最後它看起來就像廣大資訊環境的一部分。一旦官媒內容進入訓練資料,模型就能將其洗白成看似中立、客觀的資訊。
還可以思考的一個問題是,官方媒體宣傳內容,除了容易取得外,它格式固定、重複性高的語言特性,是否與大型語言模型的訓練邏輯契合?因此,官方宣傳內容進入大型語言模型之後,是否更容易普及與被接受?
今年3月,《認知科學趨勢》有一篇由南加大三位學者合寫的文章〈大型語言模型對人類表達與思維的同質化效應〉(The homogenizing effect of large language models on human expression and thought)。
研究指出,透過反映多數常見的主流模式,大型語言模型促進了風格與概念上的同質化,同時壓制了非主流聲音。隨著大型語言模型在各領域的普及,以及對人們溝通方式的塑造,研究發現它們正在影響並同質化人們的語言、觀點與推理方式。這種同質化不僅源於訓練語料庫的偏差,也透過訓練過程本身得到放大,它偏好頻率高、易於概括的模式,同時抹除少數群體的表達。
更可怕的是,這會形成不斷加深的循環。隨著越來越多人使用大型語言模型,語言模型輸出的內容,會被吸收進人類的話語中,開始塑造用戶自身的表達與推理,進而再度成為用來訓練模型的資料,將同質化從被動的偏見,轉化為結構性強化的影響。
當AI平台大量使用中國官媒宣傳內容或是中國語料時,在中國與台灣的問題上,非常可能影響使用者的認知。因此,2025年底數位發展部宣布「臺灣主權AI訓練語料庫」正式上線,讓大型語言模型不會只取用簡體中文資料,而缺失台灣用語與觀點。但這應該還只是開始,除了中文數量必須增加外,還需考慮增加不同語言的語料和數量,像是英文,因為畢竟不是所有人都是使用中文的,而未來的AI資訊戰場,應該是包含全世界。
相關文章