人工智能突破声音障碍贸易
高平历史网 2020-12-22 04:16:11
人工智能已经突破了一项声音障碍。麻省理工学院(MIT)的研究人员开发了一款人工智能系统,可以“观看”无声的视频并且生成一段声音,效果十分逼真,以至于多数观众无法分辨出这些声音是否是计算机生成的。
MIT计算机科学和人工智能实验室(MIT Computer Science and Artificial Intelligence Laboratory)称,其“深度学习算法”是头一个通过“声音图灵测试”的,生成的声音能够以假乱真。
这款视觉指示声音系统(Visually Indicated Sounds,简称Vis)受到训练,能够对棍子击打、刮擦或者捅一系列物体(从树叶、水到土壤和钢铁)时发出的声音进行分析。
研究人员称,Vis的本领可以延伸至很多其他场景。例如,未来的版本可以为电影和电视生成比传统方法(比如在铝箔上撒盐以模拟雨声)更逼真的声音效果。
该项目的负责人安德鲁 欧文斯(Andrew Owens)称,更重要的应用或许是帮助机器人理解物体的物理属性、更好地与它们所在的环境互动。该项目将于本月晚些时候在拉斯维加斯举行的计算机视觉与模式识别大会(CVPR)上展出。
“机器人可以看着人行道、本能地知道水泥地是硬的而草地是软的,因此知道如果它踩上两种地面会发生什么,”他说,“能够预测声音,是预测与世界进行物理互动的后果的重要第一步。”
该MIT团队“训练”Vis的方法是,向其输入包含4.6万种声音的1000段视频,这些声音是鼓槌在不同坚实度的物体上敲打或划过而产生的。之后,帮计算机在大量数据中找到模式的“深度学习”算法对这些声音进行解构。
为了从无声视频片断中预测一种新声音,Vis会查看最可能与每个视频画面相关的音频属性,并把这些音频串在一起成连贯的声音。Vis可以模拟快节奏和舒缓的微妙声音,无论是断断续续拍打岩石的声音,还是穿过常春藤时发出的细小沙沙声。它既可以模拟击打垫子发出的低沉砰砰声,又可以模拟敲击栏杆时发出的刺耳声音。
为了测试这些声音在人耳听起来的逼真性,研究人员对400名观众进行了调查。他们观看了两遍视频,其中一遍听的是真实声音,另一遍听的是Vis的模拟版。他们要说出哪一次是真实的声音。
如果Vis生成的声音与真实的声音无法区分,Vis版被选择的概率应为50%。结果调查得出的概率为40%,这是一个相当不错的分数。
当声音清晰、尖锐时——比如敲木头或金属的声音——该系统的表现最差,在生成由树叶或泥土产生的较轻柔、持续时间较长的声音时,Vis表现最好。有时,如果棍子刚好停在目标物之前,它还会“幻想出”假的敲击声。
欧文斯的梦想是在没有明确视觉线索的情况下让Vis模拟声音。“从微风轻抚、到笔记本电脑的嗡嗡作响,任何时候环境中都存在着许多与我们正盯着看的东西无关的声音,”他说。
唐山不孕不育治疗多少钱宁德去哪里看白癜风
湛江牛皮癣专科医院
- 上一页:中国半导体迎来盛世危机变局之年如何破解贸易
- 下一页:丹麦皇室访问佩勒电子PR贸易
- 会站限制莺歌,会站砍31分4帽,太阳赢球,他抢了保罗的MVP
- 《雪中悍刀行2》宣发,5大主演披露,姜泥、青鸟新人选意外
- 2022宁夏公务员考试笔试时间确认7月9日至10日
- 自觉是喜欢一个人的时候一心一意
- 懂得念人之好,是职边锋更高级别的情商
- 宁夏艺术职业学院一行来丝路风味公司
- 像冰箱 微波炉等电器的污渍,不能用碱性太大的清洁剂,这种专用的多功能清洁剂,它是植物萃取精华,气味很
- 通威股份(600438.SH)2022-2024年员工持股计划已完成投资者购买 斥资约54.88
- 难怪鹿鼎记不敢续写天龙八部,你看扫地僧圆寂之后,谁是天下第一?
- 天下太平人寿董事长杨铮任职资格获批
- 关乎大资金动向!科创板“芯片”指数来了,42只样本股名单公布;上交所几大指数也调整,腾讯、美团等权重
- 张丰毅还给继女保时捷,亲儿子婚礼拒绝参加,只因亲儿子做了错事?