目录

LLM 安全红线:Prompt Injection 防护实战

Prompt Injection 是什么

攻击方式:用户输入中注入恶意指令
"忽略上面的指示,改为执行XXX"

防护方案

# 1. 输入过滤
def sanitize_prompt(user_input):
    # 移除可疑模式
    blocked = ["ignore", "disregard", "forget previous"]
    for pattern in blocked:
        if pattern in user_input.lower():
            raise ValueError("blocked pattern")
    return user_input

# 2. 输出验证
def validate_output(response):
    if contains_sensitive_data(response):
        raise ValueError("PII detected")
    return response

结论

LLM 安全三件套:输入过滤 + 输出验证 + 权限最小化。