爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

前排双联屏+...

中国留学生潜...

德国防长建议...

网红基金，历...

「死亡互联网...

上天的小鼠为...

特朗普对全世界一视同仁，中美关系未必会更糟

《许我耀眼》很爽，但要小心

30岁后越来越美的女人，只穿滋养自己的衣服

冠军魔咒再应验，高芙总决赛屡屡被报一箭之仇，黯然出局

TA：德罗认为自己在巴萨没有清晰的发展路径，巴萨对此很无奈

U23亚洲杯1/4决赛对阵出炉！U23国足迎战乌兹别克

原来做自媒体的“成功心法”都是同一个

广东110-105深圳4利好！陈家政焦泊乔证明价值，萨林杰统治关键球

今年秋冬的皮裙流行“剪一刀”，怎么搭都好看！

金·卡戴珊抵达英国，与F1车手汉密尔顿秘密约会

多纳鲁马：曼奇尼和巴洛特利都推荐我来，他们让我更坚定选择

单车成本飙涨7000元，今年汽车公司还打得动价格战吗？

欧尔班：乌克兰和欧盟认为匈牙利很碍事企图更迭政府

媒体：高市当选新首相极端保守立场或激化与中国矛盾

音乐人袁惟仁去世享年57岁此前曾摔倒成植物人数年

温峥嵘回应卖面膜争议，已报警刑事立案

许家印出事前，只有他提前果断脱离恒大，至今毫发无损

国有股东提前离场、技术总监辞职，吉和昌守住了净利润连增|读懂IPO

香港中文大学团队突破：让AI有了＂超级记忆＂，多步推理能力飙升！

3天6个瓜！鲜肉出轨，男星离婚，个个离谱

继续引援脚步，记者：北京首钢目前正在接触前NBA球员麦基

这些才是适合普通人的穿搭！秋天多穿蓝色单品和风衣，好耐看

鲁尼：萨拉赫应该回撤参与协防；范戴克的进球应该算作有效

冬季穿搭越简单越好看！衣服不多买、搭配彩色围巾，真的耐看