阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-12
电力行业财务总监CFO观察:长青集团黄荣泰与恒盛能源项红日均为大专学历 2024年薪酬相差3.4倍 同花顺领涨超8%,金融科技ETF(159851)放量冲高3%!交投活跃+AI催化,机构持续看好金融科技是真的? 共铸高质量智赢高价值 |国家卫星气象中心风云三号数据中心样板点正式发布 华丽家族拟战略性增资海和药物 布局创新药赛道 电力行业财务总监CFO观察:晶科科技刘晓军薪酬为行业最高 2024年薪酬高达190万元实垂了 7月LPG产业链走势分化 供需仍占主导学习了 ChinaJoy 2025:TCL 携全球伙伴亮相,展现电竞显示与智能终端创新实力科技水平又一个里程碑 智元机器人宣布获富临精工数千万元订单反转来了 具身智能机器人产业投资热度攀升,阿里 / 京东 / 微美全息齐上阵探寻长期发展潜力是真的吗? 港股苹果概念股拉升 比亚迪电子涨超4%最新进展 汤臣倍健第二季度净利同比增逾七成 部分细分产品发力官方已经证实 电力行业财务总监CFO观察:林洋能源周辉与韶能股份朱运绍均57岁 为行业内最年长专家已经证实 共铸高质量智赢高价值 |国家卫星气象中心风云三号数据中心样板点正式发布 卓创资讯:时隔10年重提去产能 热卷市场该何去何从?又一个里程碑 李大霄:高歌猛进更要注意安全官方已经证实 科技创新再迎政策支持 银华旗下科创ETF增强今起发行官方通报 工业富联业绩创新高!消费电子&PCB携手上涨,电子ETF(515260)盘中拉升1.3%官方已经证实 华虹半导体总裁白鹏加入GSA亚太领袖老大会! 市值170亿的仙鹤股份拿什么来同时建三个百亿级项目? 苹果新功能曝光!Siri可通过语音指令操控第三方APP:2026年上线最新进展 万达被龙国首都金融法院列为被执行人,执行标的24亿余元后续反转 苹果新功能曝光!Siri可通过语音指令操控第三方APP:2026年上线是真的? 创新药继续“倒车”,港股通创新药ETF(520880)下探2%,资金加速溢价介入实测是真的 产教融合再突破:远洋椿萱茂与西南交通大学共建养老人才新高地实垂了 华南城港股交易于上午10时55分暂停官方通报来了 小米汽车概念板块上涨2.03%后续会怎么发展 华南城港股交易于上午10时55分暂停 破除“内卷”!储能行业疾呼良性竞争、共生共赢 得润电子:公司致力于产品技术的持续提升和市场客户的持续拓展秒懂 李书福旗下的无锡公司,又融了数亿元 长城基金汪立:国内经济淡季不淡,大盘或以结构性机会为主 网友称小米门锁误识外卖员人脸开锁成功,客服回应:基本不会出现这个情况最新报道 环境治理行业董秘观察:节能国祯石小峰为行业内薪酬最高 达152万元官方已经证实 高新兴:参股公司业绩会在公司合并报表的投资收益科目体现实时报道 视频号跳转淘宝打通闭环,引流新客占比超65%后续来了 长城基金汪立:国内经济淡季不淡,大盘或以结构性机会为主后续会怎么发展 加速进化程昊:已成功举办首届“机超”足球赛最新报道 收评:港股恒指涨0.19% 科指跌0.01% 加密货币概念股走强 锂电池板块大涨 中慧生物上市首日大涨近158%后续反转 业绩“变脸”的益佰制药:王牌中药注射液停产影响未消这么做真的好么? 贝森特暗示关税会像“融化的冰块”一样被撤销,但前提是制造业回流美国后续会怎么发展 美银证券:升太平洋航运目标价至2.4港元 重申“中性”评级 美股创新高之际:散户买盘退潮,对冲基金以四个月来最快速度做空 执掌新长安汽车11天后,朱华荣到深圳拜访任正非:“受益匪浅,令人敬佩!”是真的吗? 得润电子:公司致力于产品技术的持续提升和市场客户的持续拓展是真的? 加速进化程昊:已成功举办首届“机超”足球赛学习了 严打金融“黑灰产”,龙国首都重拳整治非法存贷款中介后续反转

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章