搜狗超越微软成CoQA新纪录保持者,阅读理解能力可媲美人类
2019年1月3日,搜狗搜索人工智能研究团队在对话型机器阅读理解挑战赛CoQA(Conversational Question Answering Challenge)中全面刷新所有评价指标成绩,以总成绩82.8%夺得第一。
CoQA是面向建立对话式问答系统的大型数据集,挑战赛的目标是衡量机器对文本的理解能力,以及机器面向对话中出现的彼此相关的问题的回答能力的高低。与业界所熟知的机器阅读理解评测SQuAD相比,该挑战赛集中的问题不再是单轮的一问一答的形式,而是扩展到多轮的对话交互;SQuAD 中约一半都是what型,该挑战赛问题种类更多;SQuAD中没有共识推断,该挑战赛几乎每组对话都需要进行上下文理解推断;SQuAD中所有答案均可从原文本中提取,该挑战赛中这一比例仅为66.8%。2018年8月,CoQA挑战赛正式启动,吸引了众多国内外知名研究机构和高校,其中包括微软、艾伦研究院(AI2)、斯坦福大学、清华大学COAI实验室、北京大学、复旦大学、北京邮电大学、中国科技大学等。
图1:CoQA挑战赛最新成绩榜单(截至2019年1月3日)
1月3日,搜狗研究团队凭借BERT + Answer Verification(单一模型),全面刷新CoQA所有评价指标,以总成绩82.8%进一步缩小机器与人类在该数据上的平均水平差距。据悉,搜狗的算法模型能综合考虑答案抽取和证据对答案的支撑作用,同时融入对话历史的问题和答案信息,极大提升了对当前问题的理解和回答的准确性。
图2:CoQA阅读素材
图3:CoQA问题与答案
让机器掌握阅读理解能力究竟意义何在?搜狗一直坚持探索以语言为核心的人工智能战略,相信搜索的未来是问答,而机器阅读理解是现今问答技术发展的核心之一。在AI技术的实用化方面,搜索走向问答将会在一些专业领域产生颠覆性的效果,如医疗、法律领域。
目前,搜狗已经将相关技术应用于产品及业务中。在医疗领域,搜狗明医智能自诊分诊功能,首创引入了基于人工智能技术的智能诊断助手,模拟医生与病人对话的模式与用户进行病情沟通。在法律领域,搜狗大律师的问答机器人具备逻辑分析和推理能力,在递进式问询过程中,挖掘判决书中的结构化数据,帮助用户理清已发生的事实,并在充分、准确理解用户法律诉求的基础上,给出可能的判决结果、法律建议或相似案例。
此次AI技术的突破,为搜狗更多AI技术的实用化奠定技术基础,也意味着搜狗在人工智能赛道上将继续保持其固有领先优势。
相关文章
-
贾跃亭,你的脚下踩过多少人?| 艾问人物
-
云计算的春节战场:从“人肉”到智能
-
这些“留守老外”的春节,过得比中国人还中国!
-
热点丨旧体系难适应神州优车新零售模式:宝沃营销团队近200人离职
-
海底捞涨价;罗永浩回应收到限制消费令;瑞幸咖啡大跌18%|天下网事
-
面向对象和面向过程的本质区别
-
“种草”时代下,京东也要培养自己的带货红人
-
台积电:7nm全速开工 28nm仍至关重要
-
2019“大佬说” | 交易所剧变的一年:格局已定,黑马陨落
-
除了黄酒和表情包,丁磊今年还把这个神器带去了乌镇
-
小程序“登月”:百度和微信越来越不一样
-
百度家族新成员来了!“快搜视频”App悄悄上架,专攻视频搜索
-
TT语音,变成社交软件后在危险边缘试探
-
缺席2000亿游戏市场,百度不甘心
-
王健林瘦身、张近东增肥,苏宁易购吃下万达百货
-
苹果imei在什么地方看
-
智东西早报:智能音箱Q3出货2270万部 车联网无线电频率规划公布
-
iPhone14配置和价格曝光,却坐实了“十三香”,苹果又要涨价了?
-
新书《阿尔加》:将未来金融和科幻大胆融合,一场人机博弈悄然上演!
-
【虎嗅早报】瑞幸咖啡发行价定为15~17美元;库克:巴菲特深知苹果不是单纯的科技公司
-
小程序直播公测,微信再造电商梦?
-
疫情中看到科技兴国的力量!停课不停学、停班不停工催生新风口【附下载】|智东西内参
-
光明时评:让基层不再望“数”生畏
-
【运营过于顽皮?微信号可以修改,淘宝回应网友要求:不改】
-
学中国经验,反科技殖民,印度制造BAT
-
电商前后台设计全面解析之——商品管理系统
-
短视频今年还能怎么玩?微视春节给出了一个新答案
-
蓉易转|抖音账号能否通过播放量变现吗?怎么变现?
-
电脑端微信怎么设置收款语音播报