阿里通义推新一代语音模型Fun
8月22日,阿里阿里通义发布新一代端到端的语音识别大模型Fun-ASR,该模型增强了上下文感知和高精度语音转写能力,在家装、通义推新保险等多个行业场景的代语语音识别准确率均提升了15%以上。目前,音模Fun-ASR已应用于会议字幕与同传、阿里智能纪要、通义推新语音助手等场景,代语未来该模型将进一步在阿里云百炼上线。音模
Fun-ASR是阿里大语言模型驱动的语音识别算法,其基于自研语音算法和监督微调的通义推新Qwen3训练,并采用前沿的代语模型架构以及先进的文本模态对齐技术,可有效保护和增强大模型的音模语言处理能力;此外,Fun-ASR集成了RAG方案,阿里可提供自动化音频信息检索功能,通义推新最高可导入1000多个自定义热词。代语基于该功能,系统能够根据输入音频精确获取相关领域热词、文档及前文记录,大幅提升特定领域内的关键词识别效果。

Fun-ASR架构图
为解决语音识别不准确、噪声干扰、语种混淆以及生成幻觉等问题,通义团队还在ASR模型训练中引入了RL(强化学习)技术,此策略有效减少识别过程中的幻觉,提高整体系统的准确性与可靠性。在四川话、粤语、闽南语等多地方言上,Fun-ASR取得了领先同类产品的表现。此外,Fun-ASR对远场拾音和近场降噪的等多样环境也表现出了良好的适应性,无论是会议室、工位,还是超市、户外,均可有效保证识别准确率。
在训练数据上,Fun-ASR基于上亿小时音频数据的训练,全面涵盖了互联网、科技、家装、畜牧、汽车等十多个领域的专业术语,在多个垂直领域的识别准确率显著提升。实测数据显示,Fun-ASR在保险行业的准确率较以往提升18%,在家装、畜牧等行业也实现了15%-20%的提升。
在音频领域,通义实验室已推出语音生成大模型 Cosyvoice、端到端音频多模态大模型MinMo、音频生成模型ThinkSound等模型,全面覆盖语音识别、语音合成、音频生成、音频理解等场景。
- ·张雨绮公开diss俞敏洪原因是什么?俞敏洪是谁个人资料
- ·世界女子围棋锦标赛 中国4名将惨遭淘汰
- ·篮球赛意外险的赔偿,篮球赛意外险风险
- ·当浸水的威尼斯撞上马拉松 日本跑者:最后3公里水没及膝盖
- ·积分选购页面无商品 消委会助力获补偿
- ·厨卫电器两大发展方向:环保和智能
- ·国内最好的热水器品牌企业有哪些
- ·卡纳瓦罗:世界杯后最刺激的比赛 不允许上港进球
- ·掌握家具板材选购方法 打造独具魅力儿童房
- ·中国足协:男足20日在海口与巴勒斯坦进行热身赛
- ·打破单一的发展路线 电工企业践行多元化
- ·卫浴洁具企业要审视自身不足,积极创新
- ·独家|原抖音生服市场负责人王丁虓加入京东健康,向CEO金恩林汇报
- ·角逐市场 锁具企业要不断发掘营销点和创新
- ·著名办公家具品牌,你选哪个?
- ·篮球赛意外险的赔偿,篮球赛意外险风险
