Qwen3.5-Omni:阿里在 215 项音视频任务上超越了 Gemini-3.1 Pro
目录
发布背景
2026 年 3 月 30 日,阿里云通义大模型团队发布 Qwen3.5-Omni。
这是通义系列第一次真正意义上的全模态统一模型——不是把语音识别、图像理解、视频分析三个模型拼在一起,而是从架构层面就统一了所有模态的表示空间。
核心数据
在 215 项音视频理解、识别、交互任务的评测集中:
| 模型 | 任务数 | 平均 SOTA 差距 |
|---|---|---|
| Gemini-3.1 Pro | 215 | 基线 |
| Qwen3.5-Omni | 215 | +2.3% |
“超越 Gemini-3.1 Pro"这句话背后,是这 215 个任务里 Qwen3.5-Omni 平均分比 Gemini 高 2.3 个百分点。
不是某一项单测,是大规模系统性评测的结果。
全模态统一的意义
之前的多模态模型大多是"文本模型 + 视觉模块"的拼接。Qwen3.5-Omni 的架构思路是从设计之初就把文本、图像、音频、视频放进同一个向量空间。
这样做的好处:
- 模态切换时没有信息损失
- 跨模态推理更自然(比如"根据这张图里的对话语气生成一段配乐”)
- 推理延迟比拼接方案低
开源策略
Qwen3.5-Omni 会开源模型权重,但具体是全开源还是部分开源、写这篇时阿里还没公布完整细节。
根据 Qwen 系列的惯例,应该是会有一个开源基础版 + API 调用两个版本。
对开发者的实际影响
国产多模态模型里,Qwen3.5-Omni 是目前评测数据最好看的一个。如果开源,对国内开发者来说是比 Gemini 更易用的选择(延迟、合规、文档都是国内开发者更熟悉的)。
API 价格还没公布,但从阿里一贯策略看,会比 OpenAI 和 Anthropic 的同类服务便宜。