最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺
第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。
一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。
其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:
wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
微信群里发红包指定人领取怎么弄
-
直击女性用户内心,“女友视角”下的短视频还能出哪些爆款?
-
60万旅客及410万联系人数据被卖?12306回应:未泄露
-
焦点分析 | 微信改版7天后,10倍流量增长和困顿的创作者
-
iOS版微信更新后,漂流瓶功能正式下线:彻底告别陌生人社交?
-
WhatsApp可能会在今年推出加密货币
-
“魔法实验室”课堂上,光谷这个社区的青少年体验神奇声波
-
巨亏102亿,股价大跌17%!4亿人都在用的拼多多现出原形
-
腾讯2018年收入848.96亿元,同比增长28%
-
教你用英纵建站免费做一个广告公司网站
-
北通与腾讯动漫猫妖的诱惑IP达成合作限定版游戏手柄即将发布!
-
“宅经济”下的线上娱乐消费习惯迭代
-
咕咚和Keep,谁才是国内的Peloton?
-
从微博大V封号,到“老铁经济”带货背后的反思
-
为什么百度网盘不买会员就限速,但还是有那么多人愿意用呢?
-
沃尔玛收购艺术装饰电商Art.com,利用AR增强线上业务
-
腾讯凭什么拥抱产业互联网?
-
全世界最奇葩网站!纯文字却年入5亿美元,页面二十年不变
-
最前线|腾讯1.5亿美元投资社交平台Reddit,“头腾”海外大战要开始了?
-
从着急到沉寂,腾讯为什么败走新零售?
-
关于比特币和区块链的6大误解
-
【虎嗅早报】英特尔、微软承诺继续向华为提供支持;OYO中国被曝裁员,部分团队缩减一半
-
“蓝焰芳华橙色青春”晒一晒我们消防员的职业照
-
中国引入高端职业,跟“佩奇”有关,国外同行时薪2000美元!
-
小米与荣耀“掐架”?不过是两个中年男人隔空唠嗑
-
致远互联:COP企业级服务新物种,「以人为中心」的toB新范式
-
一万家电商,同一个噩梦
-
AndroidQ本来叫「女王蛋糕」,加速手势导航是被迫
-
任正非的灰度管理哲学:凡是一分为二的人都很二|超级观点