阿里通义推新一代语音模型Fun-Trade Nation官网

阿里通义推新一代语音模型Fun

时间：2026-01-21 16:05:25 来源：Trade Nation官网

8月22日,阿里阿里通义发布新一代端到端的语音识别大模型Fun-ASR,该模型增强了上下文感知和高精度语音转写能力，在家装、通义推新保险等多个行业场景的代语语音识别准确率均提升了15%以上。目前，音模Fun-ASR已应用于会议字幕与同传、阿里智能纪要、通义推新语音助手等场景，代语未来该模型将进一步在阿里云百炼上线。音模

Fun-ASR是阿里大语言模型驱动的语音识别算法，其基于自研语音算法和监督微调的通义推新Qwen3训练，并采用前沿的代语模型架构以及先进的文本模态对齐技术，可有效保护和增强大模型的音模语言处理能力；此外，Fun-ASR集成了RAG方案，阿里可提供自动化音频信息检索功能，通义推新最高可导入1000多个自定义热词。代语基于该功能，系统能够根据输入音频精确获取相关领域热词、文档及前文记录，大幅提升特定领域内的关键词识别效果。

阿里通义推新一代语音模型Fun-ASR，垂直领域识别准确率提升15%以上

Fun-ASR架构图

为解决语音识别不准确、噪声干扰、语种混淆以及生成幻觉等问题，通义团队还在ASR模型训练中引入了RL（强化学习）技术，此策略有效减少识别过程中的幻觉，提高整体系统的准确性与可靠性。在四川话、粤语、闽南语等多地方言上，Fun-ASR取得了领先同类产品的表现。此外，Fun-ASR对远场拾音和近场降噪的等多样环境也表现出了良好的适应性，无论是会议室、工位，还是超市、户外，均可有效保证识别准确率。

在训练数据上，Fun-ASR基于上亿小时音频数据的训练，全面涵盖了互联网、科技、家装、畜牧、汽车等十多个领域的专业术语，在多个垂直领域的识别准确率显著提升。实测数据显示，Fun-ASR在保险行业的准确率较以往提升18%，在家装、畜牧等行业也实现了15%-20%的提升。

在音频领域，通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo、音频生成模型ThinkSound等模型，全面覆盖语音识别、语音合成、音频生成、音频理解等场景。

LED市场：电商时代下不为人知的秘密

森林狼老板不满交易报价总经理重启巴特勒交易

浓眉哥否认流言：只想成联盟最强帮鹈鹕夺冠

周琦发展联盟12分16板3盖帽周琦发展联盟平均数据高吗？

信泰两全保险什么意思，信泰两全保险怎么样

皇马官方回应“羞辱”洛帅声明:我们尊重他!他很职业

60岁以上的老人重疾险怎么理赔？60岁以上老人重疾险如何理赔？

建筑工地民工意外险，建筑工地民工意外险怎么赔

官宣体是什么意思，官宣体什么梗为什么火了？

专业人士解释水性漆中“水”的基本特性

上一篇：《锁爱三生》更新时间追剧日历《锁爱三生》每周几几点更新
下一篇：张雨绮公开diss俞敏洪网友力挺！俞敏洪发表了什么言论被吐槽