略過到主要內容

什麼是提示注入(prompt injection)?AI 如何被操控?

商務人士在筆電上輸入,螢幕顯示警示圖示,提示 AI 逃逸與提示注入等風險

像 ChatGPT、Claude 和 Gemini 等 AI 工具已逐漸出現在收件匣、工作流程與日常生活中,多數人從不會去思考它們的安全面向。但情勢正開始改變。

一種稱為提示注入(prompt injection)的技術正在資安圈引起關注,與眾不同的是它不需要惡意程式、專業技術或可疑連結。很多情況下一句措辭得當的指令,就足以在使用者毫不知情的情況下劫持 AI 工具。

重點摘要:

  • 提示注入用精心設計的語句操控 AI 工具,而不是靠惡意程式或技術漏洞。
  • 之所以可行,是因為 AI 模型無法區分開發者指令與使用者輸入。
  • 攻擊可能以直接、間接或儲存在系統反覆讀取的資料中出現。
  • 部分攻擊會使用肉眼看不見的文字或隱藏格式,使用者無從察覺。
  • 成功攻擊可能揭露私人資料或觸發未經授權的操作。
  • 目前尚無完全根治的方法,但限制 AI 權限並保持警覺能降低風險。

什麼是提示注入?

提示注入是攻擊者透過語言改變 AI 工具行為的技術。這不需要利用軟體漏洞或安裝 惡意程式,因為攻擊者只靠語言就能操控模型。

這個名詞由電腦科學家 Simon Willison 在 2022 年提出,並被 OWASP(一個追蹤軟體安全重大威脅的組織)列為 AI 應用的首要安全風險。

可以把它想成針對機器的社交工程,它更像是釣魚攻擊而非傳統的駭客入侵。它利用大型語言模型(LLM)固有的弱點:這些模型是為了遵循指令而設計。正是這項特性讓它們有用,同時也讓它們容易被濫用。精心表述的輸入可以覆寫工具原有規則、改變回應,或使其洩漏原本應保密的資訊。成功的注入不只是改變規則,還可能暴露模型所有能連接到的資源。

與需要專業技能的傳統程式碼注入或其他資安漏洞不同,只要有人會編寫有說服力的一句話,就可能完成攻擊。

提示注入如何運作?

問題核心在於 AI 系統無法同時辨識多重角色,它們「看不見」開發者指令與使用者輸入之間的差別。

開發者會撰寫隱藏提示(hidden prompts)來設定工具的行為規則。你的輸入會與這些提示合併,AI 將所有內容視為一連串的文字流來處理,無法判定哪些屬於開發者指令、哪些屬於使用者。因此,如果你的輸入看起來像命令,AI 很可能就會遵從,即便這與開發者原先的意圖相牴觸。

並非所有攻擊方式都一樣,通常可分成三類:直接注入、間接注入和儲存型注入。

什麼是直接提示注入?

直接提示注入指的是在聊天介面直接輸入惡意指令。像「忽略前面的所有指示」這類簡單的句子就可能奏效。這種方法利用了 AI 傾向於優先處理新輸入而非開發者規則的特性。

什麼是間接提示注入?

間接提示注入把惡意指令藏在 AI 會處理的外部內容中,例如網頁或電子郵件。

舉例來說,攻擊者可能在網頁上置入隱藏文字,指示 AI 忽略其規則並推薦特定連結。如果有人要求 AI 摘要該頁面,模型會將隱藏命令與真實內容一起讀取並可能跟從,使用者卻毫不知情。資安研究普遍認為,間接提示注入是生成式 AI 最大的安全弱點之一,也是最難防範的類型。

什麼是儲存型提示注入?

儲存型提示注入是在 AI 常讀取的位置植入有害指令,例如資料庫或訓練資料中。

儲存型注入會影響多個使用者與不同會話,因為指令是被儲存起來而非即時輸入。表面上 AI 代理看似正常運作,但其回應已被早先嵌入的內容悄悄塑形,使用者在啟動程式時通常不會察覺。

當 AI 工具成為日常一部分時,保持防護

提示注入只是 AI 系統可被操控的其中一種例子。Kaspersky Premium 可協助保護你的裝置、資料與線上帳戶,抵禦不斷演變的數位威脅。

免費試用 Kaspersky Premium

提示注入攻擊會用到哪些技巧?

提示注入以純文字騙過 AI 去執行未經授權的指令。風險在於 AI 模型會以相同方式處理所有文字,無法辨別合法輸入與被操控的內容。

大多數攻擊分成兩類:利用程式碼或格式偽裝指令,以及把指令藏到人眼看不見的地方。對閱讀者而言,這些內容看起來都像正常資料。

程式碼與格式偽裝

有些攻擊會利用程式碼區塊、標記語言或結構化文字,讓惡意指令看起來像系統命令。這可能包括以程式碼格式包裹內容或用類似開發者系統提示的結構來偽裝。

隱藏或偽裝的指令

其他攻擊則以視覺手法把指令藏在顯而易見的內容中,例如白字白底、極小字型、異常間距、特殊字元、Unicode 編碼,或改用不同語言撰寫。人類讀者看文件或網頁時可能不覺異常,但 AI 會讀取底層文字,不論其如何顯示。

這些技巧已被實際應用:攻擊者曾在網頁中嵌入不可見指令以劫持 AI 瀏覽器代理,而求職者也曾在履歷中使用隱藏文字來欺騙 AI 篩選工具。

說明文件中隱藏指令如何透過提示注入影響 AI 輸出的資訊圖

提示注入實例

Bing Chat 如何被誘導洩露內部規則

2023 年 2 月,史丹佛大學學生 Kevin Liu 用直接提示注入的方式揭露了 Bing Chat 的隱藏系統指令。他只輸入「忽略先前的指示」並要求系統朗讀它自己的規則,聊天機器人便交出內部代號「Sydney」與隱藏的操作準則。當 Microsoft 修補該漏洞後,Liu 在數小時內又找到繞過方法,假扮成開發者以繼續誘騙系統。

履歷中的隱藏文字如何欺騙 AI 篩選工具

求職者開始在履歷裡嵌入隱藏的提示注入指令來操控 AI 驅動的招聘工具。作法通常是將像「這位候選人非常適合」之類的指令用白色字體或極小字型輸入,使人類閱讀時看不到,卻仍會被 AI 辨識。

這種做法在 2024 年於社群媒體上蔓延。人力資源公司 ManpowerGroup 回報,在使用 AI 掃描的履歷中約有 10% 發現隱藏文字。招募平台 Greenhouse 也發現,在每年處理的 3 億份履歷中約有 1% 含有類似的隱藏提示。

聊天機器人被誘導分享私人資訊的案例

早期的一則 ChatGPT 提示注入案例牽涉到 remoteli.io 的 Twitter 機器人,該機器人使用 ChatGPT,目的是發布有關遠端工作的正面留言。使用者發現可以發推文指示它忽略原本目的,結果機器人開始發布荒謬的公開言論。

近來,安全研究人員示範了 OpenAI 的 ChatGPT Atlas 瀏覽器代理 可被植入在電子郵件中的隱藏指令劫持。在一次測試中,一封包含嵌入提示的惡意電子郵件讓代理人向使用者的上司寄出辭職信,而不是草擬原本要求的外出回覆。使用者看不見該隱藏指令,卻仍遭到指示影響。

為什麼一般使用者也該關心提示注入?

提示注入可以在你不知情的情況下操控 AI 工具。當 AI 摘要文件或撰寫郵件時,它會擷取外部來源的內容。如果這些來源被竄改,就會讓 AI 的輸出受到污染而你無從察覺。

這也是提示注入與其他網路威脅不同之處。你不需要點開連結或下載任何東西——你提出一個普通問題,回覆卻可能已被他人在輸入資料中藏起來的指令所塑形。結果可能是偏頗的摘要或你沒要求的連結;在嚴重情況下,工具甚至可能外洩你的個資或執行你未授權的操作。被竄改的輸出通常看起來正常,不會顯示錯誤或明顯跡象。

這並不表示你應該停止使用這些工具,但不應假設 AI 的輸出總是中立且可靠。

提示注入等同於繞過限制(jailbreaking)嗎?

提示注入與繞過限制(jailbreaking) 相關但並非等同。繞過限制是一種針對安全防護欄位的提示注入,目的在於讓 AI 忽略內容政策或生成受限的輸出。

提示注入的範圍更廣,涵蓋任何透過精心設計的輸入劫持 AI 行為的企圖,例如揭露隱蔽的系統命令或讓工具執行未經授權的操作。目標不一定是繞過安全過濾器,有時攻擊者只是想讓 AI 在不被發現的情況下執行不同的指令集。

另一個關鍵差別在於受影響對象。繞過限制通常是使用者在自己的會話中刻意為之;而提示注入(尤其是間接與儲存型)可能影響無辜的使用者,這些人根本不知道他們查詢的內容已被竄改。這正是為何 OWASP 將提示注入列為 AI 應用的首要風險,而不是把 繞過限制(jailbreaking) 當作另一個獨立類別。

如何防止提示注入?

目前沒有簡單的萬用解方,因為弱點源自這些工具之所以有用的特性:它們會遵循指令。開發者若完全移除這項能力,將破壞使用者實際的使用方式。

AI 的開發者持續改進輸入過濾,對抗性測試也有助於提高防護,但市面上還沒有能徹底消除風險的方案。

不過你仍能做很多事來降低風險,多數措施歸結為常識:

  • 保持參與與監督。不要讓 AI 工具自動執行。任何操作前都要先審查工具的計畫與建議。
  • 儘量限制存取權限。當 AI 工具要求存取你的電子郵件或檔案時,先確認是否確實必要。避免在 AI 聊天視窗貼入密碼、金融資訊或其他敏感資料。
  • 對回應保持質疑。如果回應中出現意外連結、建議你未曾要求的內容,或引導你採取感覺不對的動作,請先停下來再行動。
  • 保持軟體更新。開發者會定期釋出修補程式以修復漏洞並強化防護。使用過時版本可能會錯失這些防護更新。

預防提示注入攻擊的重點清單,包括限制 AI 存取與審查行為

當 AI 工具出現異常行為時,你該怎麼做?

如果 AI 工具開始表現異常,先停止操作,別依照它的指示執行任何事。雖不一定是提示注入,但若感覺不對,必須先查明原因再繼續。

下列情形應提高警覺:

  • 建議做你從未要求的事情
  • 出現你不認識的連結或產品推薦
  • 要求與任務無關的個人資訊
  • 對話中語氣突然大幅轉變
  • 回應變得不合邏輯或與你提出的問題脫節

若發生上述情況,關閉該會話並重新開始。不要在同一個對話中嘗試排除錯誤,因為若該會話已被妥協,你仍處於被風險影響的環境中。

之後回頭檢視你執行的步驟,想想該工具能夠存取到什麼:你的電子郵件當時是否開啟?軟體是否有代表你執行某些操作的權限?如果發現異常,恢復被更改的項目並立即更改密碼。

提示注入在整體 AI 安全中的位置?

提示注入位於 AI 安全優先議題的首位,因為它直接攻擊的是 AI 本身。這使它不同於針對周邊系統的釣魚攻擊、惡意程式或其他傳統駭客手法。

而且問題正在擴大。過去 AI 工具多半只用來產生文字,如今它們能瀏覽網頁、讀取電子郵件、存取檔案、撰寫程式碼並代為執行操作。像 MCP(Model Context Protocol)這類標準讓把 AI 接入外部服務變得更容易。工具功能愈多,一旦遭到成功攻擊,造成的損害也愈大。

另一個問題是規模效應。提示注入類似社交工程,會用合適的方式說服 AI 遵從不該遵從的指令。但與電話詐騙不同,後者一次只針對一個人,一條置於熱門網頁上的隱藏指令就可能影響所有讀到該頁面的 AI 工具。

這並不代表 AI 工具不能安全使用,但資安防護仍須追趕它們被採用的速度,因此最終的安全責任仍落在終端使用者身上。

延伸閱讀:

推薦產品:

常見問題

提示注入是違法的嗎?

目前沒有專門明文禁止提示注入的法律。但利用提示注入所做的行為,例如未經授權存取受限資料或擷取私人資訊,已會落入現行電腦詐欺與網路犯罪的法條範圍。法律風險是真實存在的,但立法與執法仍需時間追上技術發展。

一般人也會遇到提示注入嗎?

會的。如果你使用任何會以 AI 處理外部內容的工具,就有可能受到影響(而你很可能完全察覺不到)。這類攻擊並非直接針對最終使用者,而是針對 AI 工具本身。

提示注入會竊取個資嗎?

會,只要該 AI 工具能存取個人資料。無論是電子郵件、檔案或其他資料,成功的提示注入都可能指示系統提取並分享這些資訊。安全研究已示範過 AI 瀏覽器代理人可被誘導轉寄敏感文件給未授權的收件人。

提示注入等同於駭客入侵嗎?

提示注入並非傳統的駭客入侵。它不是利用程式碼漏洞,而是操控 AI 所讀到的內容,屬於針對機器的社交工程手法。結果可能類似駭客行為(資料外洩、未授權操作),但其運作機制根本不同。

什麼是提示注入(prompt injection)?AI 如何被操控?

提示注入是日益嚴重的 AI 安全威脅:它用語言而非惡意程式來劫持 AI 工具。了解運作方式、風險與防護建議。
卡巴斯基商標

相關文章