关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1338人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

特朗普"闯祸"泄露军事机密:美军要重返阿富汗对付中国

文雅笔墨 浏览 24142

释永信老照片流出 21岁的他推师傅看病看起来老实本分

火山詩话 浏览 3696

排队200桌,这个地域火锅成了今冬“顶流”

餐饮老板内参 浏览 2534

晶圆代工涨价,半导体持续高景气!| 0316

虎嗅APP 浏览 2173

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101 浏览 3903

美总统威胁对尼日利亚动武 尼方回应

环球网资讯 浏览 4079

莱切足球:福法纳加盟,恩戈姆也即将到来

绿茵情报局 浏览 3127

兴业消费金融:筑梦美好生活 扎实推进高质量发展

财经众议院 浏览 3317

情侣连续9年在千年古树下合影:18岁喜欢的人还在一起

潇湘晨报 浏览 9754

刘晓庆怒批演员不背台词,被扒出疑似阿娇,季冠霖曾点名吐槽她

萌神木木 浏览 3808

卡其裤+蓝衬衫,简单高级

Yuki女人故事 浏览 4626

新款小鹏G9申报图曝光 自研图灵芯片上车

网易汽车 浏览 4198

信邦制药涉嫌单位行贿被移送起诉,前董事长涉嫌行贿法院已立案受理,公司回应

红星资本局 浏览 3521

又有8个大V账号被封!雪球一日连发“两弹”,“游资战法”等遭重点打击

第一财经资讯 浏览 3107

懂穿搭的女人,把“卫衣”收进衣柜,这3件单品才是时髦密码

静儿时尚达人 浏览 4226

TA:接近阿韦洛亚的消息人士暗示,他的合同并非仅限于本赛季

懂球帝 浏览 2993

知名汽车智驾企业“停工放假”

电动知家 浏览 3567

解放军组织轰炸机编队位南海例行巡航

界面新闻 浏览 3786

美参议员就谷歌与特朗普达成2200万美元和解协议质询谷歌、YouTube

界面新闻 浏览 4190

51亿买公司捆绑69亿负债,佛塑科技“蛇吞象”并购是赚是亏?

野马财经 浏览 3192

奶茶冲泡巨头香飘飘“突围”:首家线下茶饮店将开业,曾多次试水快闪店

红星资本局 浏览 4163
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1