最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺
第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。
一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。
其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:
wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
终于!年度账单又来了!网友:看完emo了
-
16.5元!饿了么和B站联合推出了双会员:边刷剧边点外卖?
-
最前线丨腾讯花1.25亿美金为Farfetch站台,BAT撑腰的奢侈品电商战能打起来吗?
-
浙江知库融媒体大数据平台启动开发
-
重磅:贾跃亭乐视股权再减1077万股,网友:老贾不在乎!
-
金数据:在移动和企服领域寻找表单产品的想象空间
-
金立:《复盘金立死亡之谜》一文捏造事实 严重侵害公司声誉
-
新年社交狙击战:还没开始就输了
-
一个月卖出64万笔,专救傅明、翟天临
-
春运观察:反向春运、分期购票等成潮流,网约车更注重安全出行
-
揭秘山姆会员店,弃售活鲜背后的思考
-
天津一区块链公司擅用“腾讯”企业字号被罚款3000元
-
你怎么看待“西方科学家认为人死后约150年或重回人间”?
-
利欧股份:此前已尝试将AI、AR运用于电商直播多维度实现虚拟主播的场景运用
-
36氪首发|为药企提供端到端的数字化解决方案,「明度智慧」获8000万元A+轮融资
-
款款热销!万能坯半漂只售坯布价!省时,省钱,省力!
-
闯进一群独角兽的私密聚会
-
【钛晨报】支付宝回应年度账单金额过高:增加了投资理财等;腾讯回应手机QQ可显示对方实时电量:隐私不会泄漏
-
晋中新媒体培训-在家门口线下学
-
百度APP春晚发9亿红包;检出各类传染病2.7万多例;21亿6年败光
-
终于等到你!Chia关于近期新型P图工具等问题的正式回应!
-
万物互联将至!BAT激战云端,以此抢夺物联网赛道
-
《流浪地球》撞向豆瓣,影评机制的锅?
-
【铅晚要看】美国商务部针对华为的临时许可证或将再延期三个月;金立手机或将“重出江湖”
-
持续发酵!华为前员工被羁押251天,给个解释叫“支持”?
-
阿里CEO张勇:阿里巴巴不会裁员;苹果最早明年放弃英特尔处理器;《流浪地球》延长上映两个月
-
苹果WWDC2020官宣改为线上举行!31年来首次
-
与AppleWatch相比,努比亚腕机新品,算创新还是鸡肋?
-
金卡、钻卡都让开,苹果才是美联航的头号金主