爆点资讯

本文第一作者是江宇轩，清华大学博士生，研究方向为生成模型、文生音频和多模态学习，指导老师为朱军教授与窦维蓓教授。

文本到音频（Text-to-Audio, TTA）生成技术近年来取得了显著进展，从早期的简单声效合成逐步发展到基于扩散模型的高保真音频生成，能够较好地还原复杂的自然语言描述，为影视配音、游戏音效及多媒体内容创作提供了重要的技术支撑。

然而，现有 TTA 技术在精细化控制方面仍面临挑战：一方面，模型难以实现对声音事件发生时间的精确控制；另一方面，生成的语音内容往往不够清晰，缺乏可理解性。

针对这一问题，清华大学研究团队提出了 ControlAudio，一种基于渐进式扩散建模的文生音频方法。该方法通过系统性的数据构建流程与渐进式建模策略，在统一框架下实现了对时间结构与语音内容的联合建模。

目前，该工作已被 ACL 2026 Main Conference 接收，并拟推荐为口头报告。

阅读全文

清华新作ControlAudio：声音何时响、说啥话？都能按剧本可控生成

海信发布两款...

比亚迪锂电、...

好消息，来了...

在复旦12年...

男子如厕突发...

击落77架！...

不在乎中国市场？全智贤方风波后仍未道歉，昔日傲慢模样全被扒

王小川回应张文宏拒绝AI写病历观点：小医生+AI是大医生

碰瓷营销还是真有实力创维汽车的“生存者游戏”

乐道L80续航短了些，有90%选择baas，58%选择黑外观

特朗普行政令降低大麻管制等级，投资者“卖事实”，大麻股普跌

依旧神仙打架！沈腾吴京易烊千玺齐聚春节档

向经典致敬斯柯达推出110 R数字化概念车

长安启源2025年全年销量突破40万辆

郑爽新账号遭封禁，晒自拍一个细节被人认出，疑似穿男友衣服出镜

小伙称去＂踩背＂被戴链子拴住抽皮鞭记者惊讶当场报警

牛弹琴：中国的两个邻国大打出手了战况很惨烈

告别“躺赚” 消金与小贷走向殊途

“钢铁大亨”投资“口罩大王”，两个月浮盈近10亿

安切洛蒂：后卫失误导致失利我们必须要吸取教训

历史前三？阿贾-威尔逊曾表示：讨论WNBA的GOAT 我至少得是前三

邮轮爆发可人传人致命病毒:30人下船多国开始追踪

特朗普发文宣称：10项停战条款是“假新闻”

阿尔及利亚非洲杯名单：马赫雷斯、努里领衔，卢卡-齐达内入选

铠侠开始提供新一代UFS 4.1闪存样品，随机读取速度提升90%

被指拒动用冻结俄资产援乌系因不想得罪美国日本否认

六旬女子做痔疮手术9天后突然去世当地卫健委介入

俄黑海港口设施遭袭，乌军证实实施火力打击

翁虹女儿18岁成人及笄礼惊艳全网

一场战事三重短缺冲击全球经济