关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者3123人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美股、中概股,全线爆发!机构称A股调整是布局良机!

证券时报e公司 浏览 4149

硅谷的「十万大裁员」:Meta按代码量裁员

新智元 浏览 4131

艾科维曾通过外部客户转贷逾千万元 两家“0人”供应商合计撑起超五千万元采购额

金证研 浏览 4241

约翰霍普金斯大学:让卫星"慧眼"像人类一样逐步发现地面变化

科技行者 浏览 3125

深度复盘:大疆是如何成为影像领域新巨头的?

极客公园 浏览 3887

你的高级感,烟管裤轻松搞定!

Yuki女人故事 浏览 1024

两名国民党民代遭起诉 郑丽文:民进党想团灭在野党

海峡导报社 浏览 14844

晚旗报:随着齐米卡斯留在罗马,罗伯逊不会在冬窗离开利物浦

懂球帝 浏览 2918

超离谱判罚!米内罗进球被吹,马纳法染黄,媒体人:亚冠意义何在

奥拜尔 浏览 3917

详解“和平意志-2026”演习各国参演舰艇阵容

环球网资讯 浏览 3134

别羡慕自由职业者了

虎嗅APP 浏览 4025

存储芯片涨价潮蔓延,半导体细分龙头业绩“水涨船高”

览富财经网 浏览 2926

美媒:贾马尔-穆雷不会为加拿大出战下届世界杯&奥运会

懂球帝 浏览 17

拓普泰克股权集中,研发占比低,客户集中,与兆威机电信披冲突

权衡财经 浏览 933

雷军直播四小时回应质疑

大象新闻 浏览 3191

专家:高市早苗收敛了一贯对华强硬的鹰派色彩

北京日报客户端 浏览 14865

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 4255

静默复古风,低调显贵的穿搭密码!得物2025秋冬趋势发布!

LinkFashion 浏览 6122

星光大赏残酷名利场:张国立赵露思坐第一排C位,座位图等级分明

娱乐圈笔娱君 浏览 3520

全球红人经济“超级枢纽”!天下秀递表港交所,新浪微博持股近27%|港E声

时代周报 浏览 3264

帮助截瘫患者重获运动功能,华山神外脑机接口团队在上海先进事迹报告会分享创新故事

上观新闻 浏览 4118
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1