GPT-5.4 的百万 token 上下文：终于不再截断

Simi 收录于 AI

2026-03-05 约 679 字预计阅读 2 分钟

核心升级

GPT-5.4 在 2026 年 3 月 5 日发布。两个主要升级：

1. 百万 token 上下文（默认开启）

之前的主流上下文上限是 128k（GPT-4o）和 200k（Claude 3.5）。GPT-5.4 直接拉到 100 万 token，约等于：

75 万字
一部中篇小说的 10 倍
10 小时音频的完整 transcript

API 默认开启，不用额外申请。

2. 中途响应可控（Mid-response Steerability）

这个功能解决的是实际痛点：AI 回答到一半跑偏了，只能让它重新生成。

现在可以在对话中途调整输出方向：

“方向往技术细节走”
“不要给代码例子，改用类比”
“停在这个论点，给我结论”

对谁有用

百万 token 上下文不是噱头，以下场景直接受益：

场景1: 代码库审查
输入: 整个 monorepo（50 万 token）
输出: 全局架构分析 + 依赖关系图 + 潜在风险点

场景2: 长文档分析
输入: 300 页 PDF 的完整文本
输出: 按需求整合的摘要、对比表、知识图谱

场景3: 多轮对话式数据分析
输入: 100 份季度报表
输出: 跨报表的趋势识别 + 异常检测 + 假设生成

Mid-response Steerability 的实现

这个功能的技术本质是：在模型的 attention 机制里动态注入 steering vectors，控制生成方向而不中断生成过程。

不是重新生成，是实时调整。

        
        
        
    
# API 用法示例
response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{"role": "user", "content": "分析这个代码库"}],
    mid_steer=[
        {"at": 500, "direction": "more_technical"},
        {"at": 1500, "direction": "fewer_examples"}
    ]
)

实际限制

Token 越多，推理成本和延迟越高。百万 token 上下文在某些任务上会带来不可接受的延迟。OpenAI 的建议是：短任务用小上下文，复杂任务再开满。

另外，“中途可控"的 steering vectors 效果在不同任务上稳定性不一，复杂逻辑推导中途 steering 可能打断推理链。

目录

GPT-5.4 的百万 token 上下文：终于不再截断

核心升级

对谁有用

Mid-response Steerability 的实现

实际限制