Qwen3.5-Omni：阿里在 215 项音视频任务上超越了 Gemini-3.1 Pro

Simi 收录于 AI

2026-03-30 约 568 字预计阅读 2 分钟

发布背景

2026 年 3 月 30 日，阿里云通义大模型团队发布 Qwen3.5-Omni。

这是通义系列第一次真正意义上的全模态统一模型——不是把语音识别、图像理解、视频分析三个模型拼在一起，而是从架构层面就统一了所有模态的表示空间。

在 215 项音视频理解、识别、交互任务的评测集中：

模型	任务数	平均 SOTA 差距
Gemini-3.1 Pro	215	基线
Qwen3.5-Omni	215	+2.3%

“超越 Gemini-3.1 Pro"这句话背后，是这 215 个任务里 Qwen3.5-Omni 平均分比 Gemini 高 2.3 个百分点。

不是某一项单测，是大规模系统性评测的结果。

之前的多模态模型大多是"文本模型 + 视觉模块"的拼接。Qwen3.5-Omni 的架构思路是从设计之初就把文本、图像、音频、视频放进同一个向量空间。

这样做的好处：

Qwen3.5-Omni 会开源模型权重，但具体是全开源还是部分开源、写这篇时阿里还没公布完整细节。

根据 Qwen 系列的惯例，应该是会有一个开源基础版 + API 调用两个版本。

国产多模态模型里，Qwen3.5-Omni 是目前评测数据最好看的一个。如果开源，对国内开发者来说是比 Gemini 更易用的选择（延迟、合规、文档都是国内开发者更熟悉的）。

API 价格还没公布，但从阿里一贯策略看，会比 OpenAI 和 Anthropic 的同类服务便宜。