关闭广告

清华新作ControlAudio:声音何时响、说啥话?都能按剧本可控生成

机器之心Pro1332人阅读



本文第一作者是江宇轩,清华大学博士生,研究方向为生成模型、文生音频和多模态学习,指导老师为朱军教授与窦维蓓教授。

文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成,能够较好地还原复杂的自然语言描述,为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而,现有 TTA 技术在精细化控制方面仍面临挑战:一方面,模型难以实现对声音事件发生时间的精确控制;另一方面,生成的语音内容往往不够清晰,缺乏可理解性。

针对这一问题,清华大学研究团队提出了 ControlAudio,一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略,在统一框架下实现了对时间结构与语音内容的联合建模。

目前,该工作已被 ACL 2026 Main Conference 接收,并拟推荐为口头报告。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

冠军魔咒再应验,高芙总决赛屡屡被报一箭之仇,黯然出局

网球之家 浏览 3809

TA:德罗认为自己在巴萨没有清晰的发展路径,巴萨对此很无奈

懂球帝 浏览 2959

U23亚洲杯1/4决赛对阵出炉!U23国足迎战乌兹别克

体坛周报 浏览 3061

原来做自媒体的“成功心法”都是同一个

黎贝卡的异想世界 浏览 4065

广东110-105深圳4利好!陈家政焦泊乔证明价值,萨林杰统治关键球

篮球资讯达人 浏览 3149

今年秋冬的皮裙流行“剪一刀”,怎么搭都好看!

LinkFashion 浏览 4064

金·卡戴珊抵达英国,与F1车手汉密尔顿秘密约会

土澳的故事 浏览 2913

多纳鲁马:曼奇尼和巴洛特利都推荐我来,他们让我更坚定选择

懂球帝 浏览 3989

单车成本飙涨7000元,今年汽车公司还打得动价格战吗?

界面新闻 浏览 2877

欧尔班:乌克兰和欧盟认为匈牙利很碍事 企图更迭政府

文汇报 浏览 4133

媒体:高市当选新首相 极端保守立场或激化与中国矛盾

环球网资讯 浏览 9198

音乐人袁惟仁去世享年57岁 此前曾摔倒成植物人数年

极目新闻 浏览 9076

温峥嵘回应卖面膜争议,已报警刑事立案

扒虾侃娱 浏览 3483

许家印出事前,只有他提前果断脱离恒大,至今毫发无损

壹只灰鸽子 浏览 4082

国有股东提前离场、技术总监辞职,吉和昌守住了净利润连增|读懂IPO

时代周报 浏览 1277

香港中文大学团队突破:让AI有了"超级记忆",多步推理能力飙升!

科技行者 浏览 3203

3天6个瓜!鲜肉出轨,男星离婚,个个离谱

霁寒飘雪 浏览 4135

继续引援脚步,记者:北京首钢目前正在接触前NBA球员麦基

懂球帝 浏览 3259

这些才是适合普通人的穿搭!秋天多穿蓝色单品和风衣,好耐看

静儿时尚达人 浏览 4033

鲁尼:萨拉赫应该回撤参与协防;范戴克的进球应该算作有效

懂球帝 浏览 3828

冬季穿搭越简单越好看!衣服不多买、搭配彩色围巾,真的耐看

静儿时尚达人 浏览 3014
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1