爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

专访刘莘教授...

内塔尼亚胡被...

12岁青训球...

定位大型旗舰...

湖南省属最大...

新版《保管合...

上赛季至今五大联赛仅6人直接参与40球+：凯恩第1，青木在列

50+姐姐冬季穿搭别“作妖”，4个法则穿得简约高级，时髦极了

中国灵芝第一股寿仙谷，致敬保健产业30年

特朗普＂闯祸＂泄露军事机密:美军要重返阿富汗对付中国

释永信老照片流出 21岁的他推师傅看病看起来老实本分

排队200桌，这个地域火锅成了今冬“顶流”

晶圆代工涨价，半导体持续高景气！| 0316

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

美总统威胁对尼日利亚动武尼方回应

莱切足球：福法纳加盟，恩戈姆也即将到来

兴业消费金融：筑梦美好生活扎实推进高质量发展

情侣连续9年在千年古树下合影：18岁喜欢的人还在一起

刘晓庆怒批演员不背台词，被扒出疑似阿娇，季冠霖曾点名吐槽她

卡其裤+蓝衬衫，简单高级

新款小鹏G9申报图曝光自研图灵芯片上车

信邦制药涉嫌单位行贿被移送起诉，前董事长涉嫌行贿法院已立案受理，公司回应

又有8个大V账号被封！雪球一日连发“两弹”，“游资战法”等遭重点打击

懂穿搭的女人，把“卫衣”收进衣柜，这3件单品才是时髦密码

TA：接近阿韦洛亚的消息人士暗示，他的合同并非仅限于本赛季

知名汽车智驾企业“停工放假”

解放军组织轰炸机编队位南海例行巡航

美参议员就谷歌与特朗普达成2200万美元和解协议质询谷歌、YouTube

51亿买公司捆绑69亿负债，佛塑科技“蛇吞象”并购是赚是亏？

奶茶冲泡巨头香飘飘“突围”：首家线下茶饮店将开业，曾多次试水快闪店