GPT-5.4 的百万 token 上下文:终于不再截断
目录
核心升级
GPT-5.4 在 2026 年 3 月 5 日发布。两个主要升级:
1. 百万 token 上下文(默认开启)
之前的主流上下文上限是 128k(GPT-4o)和 200k(Claude 3.5)。GPT-5.4 直接拉到 100 万 token,约等于:
- 75 万字
- 一部中篇小说的 10 倍
- 10 小时音频的完整 transcript
API 默认开启,不用额外申请。
2. 中途响应可控(Mid-response Steerability)
这个功能解决的是实际痛点:AI 回答到一半跑偏了,只能让它重新生成。
现在可以在对话中途调整输出方向:
- “方向往技术细节走”
- “不要给代码例子,改用类比”
- “停在这个论点,给我结论”
对谁有用
百万 token 上下文不是噱头,以下场景直接受益:
场景1: 代码库审查
输入: 整个 monorepo(50 万 token)
输出: 全局架构分析 + 依赖关系图 + 潜在风险点
场景2: 长文档分析
输入: 300 页 PDF 的完整文本
输出: 按需求整合的摘要、对比表、知识图谱
场景3: 多轮对话式数据分析
输入: 100 份季度报表
输出: 跨报表的趋势识别 + 异常检测 + 假设生成Mid-response Steerability 的实现
这个功能的技术本质是:在模型的 attention 机制里动态注入 steering vectors,控制生成方向而不中断生成过程。
不是重新生成,是实时调整。
# API 用法示例
response = client.chat.completions.create(
model="gpt-5.4",
messages=[{"role": "user", "content": "分析这个代码库"}],
mid_steer=[
{"at": 500, "direction": "more_technical"},
{"at": 1500, "direction": "fewer_examples"}
]
)实际限制
Token 越多,推理成本和延迟越高。百万 token 上下文在某些任务上会带来不可接受的延迟。OpenAI 的建议是:短任务用小上下文,复杂任务再开满。
另外,“中途可控"的 steering vectors 效果在不同任务上稳定性不一,复杂逻辑推导中途 steering 可能打断推理链。