阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-12
大麻股一天狂飙40%!特朗普重新分类大麻危险等级消息引爆市场实时报道 澳币AUDUSD风暴来袭:美联储三次降息预期+澳联储决议双重引爆!官方已经证实 卫星互联网建设提速 上市公司掘金产业链机遇官方处理结果 美联储老大候选人名单再扩容 据称又有三位央行高官加入其中后续会怎么发展 美国5000万美元悬赏马杜罗 委内瑞拉谴责:公然违反国际法官方通报来了 鲍威尔接班人再添新选 美联储官员Bowman、Jefferson和Logan加入角逐 特朗普签署行政令,中美关税休战期延长90天这么做真的好么? 纽约汇市:美元上涨 投资者屏息以待美国通胀数据实时报道 华尔街多空对决:Stifel预言标普500或暴跌14% Trivariate却乐观预测两年内冲上7000点专家已经证实 特朗普对英特尔CEO态度反转,要求其辞职数日后称其“成就斐然” 比特币突破12万美元关口 投资者关注监管新政与重磅IPO 补贴倒计时 美国人狂买电动汽车太强大了 拟10股派4元!“安防茅”董事长提议分红 重磅!汾酒价值461.03亿,鑫飞价值57.15亿……官方处理结果 福特将向肯塔基州装配厂投资近20亿美元用于生产电动汽车是真的吗? 近4200股飘红,锂矿大热,解读A股的上涨逻辑|全球财经连线是真的? 补贴倒计时 美国人狂买电动汽车官方通报来了 福特将向肯塔基州装配厂投资近20亿美元用于生产电动汽车实测是真的 南侨食品:董事会秘书莫雅婷辞职,苏璠接任专家已经证实 风波中的百果园:超90%为加盟店,号称利润30%两年回本,去年关店近千家是真的吗? 冯星航辞去华南城非执行董事职务官方通报 福特新款平价车型起售价约为3万美元 至少570万!长安汽车及控股股东董事、高管拟增持公司股份科技水平又一个里程碑 至少570万!长安汽车及控股股东董事、高管拟增持公司股份 惠发食品:公司副总经理臧方运累计减持3.48万股 印度向三家国有公司释放34亿美元石油救助补偿金后续来了 惠发食品:公司副总经理臧方运累计减持3.48万股 轨交设备行业董秘观察:康尼机电陈磊仅为大专学历 薪酬高达160万元为行业最高后续反转 广哈通信:2025年半年度净利润约2444万元,同比增加69.51% 这家激光巨头孵化企业秘密启动IPO! 牛没“疯”!突破或在眼前? 南侨食品:2025年半年度净利润约3596万元太强大了 东风股份:今年前7个月汽车销量为7.76万辆是真的吗? 气派科技上半年营收同比增长4.1% 亏损同比扩大至5867万元太强大了 安培龙:拟向激励对象24人授予限制性股票100万股 两个月内被约谈四次,汽车业需要好好“立规矩”了太强大了 又一海外项目投产!科技水平又一个里程碑

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章