Kaiyun·官方网站-(中国大陆)登录入口

服务热线热线:

0871-63910365

行业新闻

当前位置: 首页 > 新闻资讯 > 行业新闻

腾讯发布AudioGenie多智能体系统攻克多模态到多音频生成难题

发布时间:2025-08-19点击次数:

  

腾讯发布AudioGenie多智能体系统攻克多模态到多音频生成难题(图1)

  品玩8月18日讯,据 Github 页面显示,腾讯推出一项名为 AudioGenie 的新型无训练多智能体系统问世,为多模态到多音频(MM2MA)生成领域带来重大突破。该系统能从视频、文本、图像等多模态输入中,精准合成音效、语音、音乐、歌曲等多种音频,有效解决了该领域长期面临的高质量配对数据稀缺、多任务学习框架薄弱等核心挑战。

  AudioGenie 采用双层架构,由生成团队与监督团队组成。生成团队通过细粒度任务分解和自适应混合专家(MoE)协作机制,实现对多模态输入的深度理解与动态模型选择,并借助试错迭代优化模块完成自我修正;监督团队则通过反馈循环确保音频的时空一致性并验证输出质量。

  此外,研究团队还构建了首个 MM2MA 任务基准数据集 MA-Bench,包含 198 个带多类型音频标注的视频。实验表明,AudioGenie 在 8 项任务的 9 个指标中均达到当前最优或可比性能,用户研究进一步证实其在音频质量、准确性、上下文对齐及美感上的显著优势,为跨模态音频生成应用开辟了新路径。Kaiyun网站

上一篇:汉桑科技:生产的创新音频和AIoT智能产品功能上主要应用于儿

返回列表

下一篇:汉桑科技:公司创新音频和 AIoT 智能产品的主要客户为 T