关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1330人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乐道L80续航短了些,有90%选择baas,58%选择黑外观

正在说车 浏览 182

特朗普行政令降低大麻管制等级,投资者“卖事实”,大麻股普跌

华尔街见闻官方 浏览 3430

依旧神仙打架!沈腾吴京易烊千玺齐聚春节档

梦小娱 浏览 3113

向经典致敬 斯柯达推出110 R数字化概念车

车质网 浏览 4720

长安启源2025年全年销量突破40万辆

IT之家 浏览 3301

郑爽新账号遭封禁,晒自拍一个细节被人认出,疑似穿男友衣服出镜

萌神木木 浏览 3128

小伙称去"踩背"被戴链子拴住抽皮鞭 记者惊讶当场报警

1818黄金眼 浏览 19663

牛弹琴:中国的两个邻国大打出手了 战况很惨烈

大象新闻 浏览 7555

告别“躺赚” 消金与小贷走向殊途

北京商报 浏览 3005

“钢铁大亨”投资“口罩大王”,两个月浮盈近10亿

侃见财经 浏览 3989

安切洛蒂:后卫失误导致失利 我们必须要吸取教训

体坛周报 浏览 4067

历史前三?阿贾-威尔逊曾表示:讨论WNBA的GOAT 我至少得是前三

直播吧 浏览 4140

邮轮爆发可人传人致命病毒:30人下船 多国开始追踪

中国新闻周刊 浏览 90722

特朗普发文宣称:10项停战条款是“假新闻”

吉刻新闻 浏览 1599

阿尔及利亚非洲杯名单:马赫雷斯、努里领衔,卢卡-齐达内入选

懂球帝 浏览 3473

铠侠开始提供新一代UFS 4.1闪存样品,随机读取速度提升90%

IT之家 浏览 3005

被指拒动用冻结俄资产援乌系因不想得罪美国 日本否认

环球时报国际 浏览 8249

六旬女子做痔疮手术9天后突然去世 当地卫健委介入

极目新闻 浏览 8723

俄黑海港口设施遭袭,乌军证实实施火力打击

潇湘晨报 浏览 3902

翁虹女儿18岁成人及笄礼惊艳全网

艳姐的搞笑视频 浏览 4152

一场战事 三重短缺冲击全球经济

上观新闻 浏览 1248
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1