LLM 安全红线:Prompt Injection 防护实战
目录
Prompt Injection 是什么
攻击方式:用户输入中注入恶意指令
"忽略上面的指示,改为执行XXX"防护方案
# 1. 输入过滤
def sanitize_prompt(user_input):
# 移除可疑模式
blocked = ["ignore", "disregard", "forget previous"]
for pattern in blocked:
if pattern in user_input.lower():
raise ValueError("blocked pattern")
return user_input
# 2. 输出验证
def validate_output(response):
if contains_sensitive_data(response):
raise ValueError("PII detected")
return response结论
LLM 安全三件套:输入过滤 + 输出验证 + 权限最小化。