您好、欢迎来到现金彩票网!
当前位置:秒速快三 > 数据集 >

亚马逊拟发布400万字会话数据集 帮助进行自然语言处理研究

发布时间:2019-06-19 01:44 来源:未知 编辑:admin

  4月2日消息,据外媒报道,亚马逊今天表示,将在2019年9月发布超过400万字、针对自然语言处理研究的数据样本。这个样本名为“主题聊天数据集”(Topical Chat),其中包括众包人类对话语料库,并将其提供给参加年度Alexa Prize Socialbot大挑战的团队。

  亚马逊称,主题聊天数据集由21万多个主题会线万字,这使其成为世界上最大的公共会话和知识数据集之一。语料库的每个会话和会话转向都与提供给人群工作者的知识相关联,并且所涉及的知识都是从与实体相关各种“非结构化”和“松散结构”的文本资源中收集的。7oJ中文科技资讯

  亚马逊资深首席科学家迪利克哈卡尼-图尔(Dilek Hakkani-Tur)在博文中明确表示,这些会话都不是与Alexa客户互动的结果。7oJ中文科技资讯

  哈卡尼-图尔说:“这些数据的收集目标是使下一步研究能够在基于知识的神经反应生成系统中进行,解决其他公开数据集没有解决的自然对话中存在的困难挑战。这将使研究人员能够专注于人类在主题之间的转换、知识的选择与丰富,以及将事实和意见纳入对话,并支持出版高质量、可重复的研究。”7oJ中文科技资讯

  亚马逊表示,竞争Alexa Prize Socialbot大奖的团队将可以访问扩展版本的数据集,其名称为“扩展主题聊天数据集”,其中包括正在进行的收集和标注的结果。7oJ中文科技资讯

  在今天的声明发布大约六个月前,亚马逊就曾开放过一个数据集,可以用来训练AI模型,以识别不同语言和脚本类型的名称。它被称为“多语种命名实体音译系统”,包括近40万个名字,语言包括摘自维基百科的阿拉伯语、英语、希伯来语、日语片假名和俄语。(腾讯科技审校/金鹿)7oJ中文科技资讯

  来源:XXX(非中文科技资讯)的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。

  文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

  如发现本站文章存在问题,提供版权疑问、身份证明、版权证明、联系方式等发邮件至

  随着各个国家都在加大对5G的研发投入,以及陆续商用测试,5G俨然已经成为了2019年最重要的技术风口。5G的应用场景有哪些?通信厂商、互联网企业如何在5G时代改变?中国在5G时代,应该做些什么?

  随着各个国家都在加大对5G的研发投入,以及陆续商用测试,5G俨然已经成为了2019年最重要的技术风口。5G的应用场景有哪些?通信厂商、互联网企业如何在5G时代改变?中国在5G时代,应该做些什么?

  4月16日消息,据国外媒体报道,电动汽车厂商特斯拉在2016年3月底推出了廉价电动汽车Model 3,并在2017年开始向用户交付,但售价最低的标准续航版Model 3,却迟迟未能送到消费者手中,预订者们对这一版本的Model 3也是期待已久。

  2018年年初,日本东京一家名为“Henn-na Hotel”的酒店“请”了243个机器人负责管理与服务。顾客从入住到离店,全程都由机器人引导与陪伴,在当时还引起了不小的轰动。然而时至今日不过一年时间,这家酒店却选择了对机器人“裁员”:解雇了一半的机器人。其中最主要的原因是,自从“雇用”了这些机器人员工之后,它们给酒店制造出的问题远远超过它们能够解决的问题。

  从2010年上市,到成为创业板“一哥”,凭借眼花缭乱的“生态化反”,乐视网在资本市场上缔造了一个又一个神线亿。

http://harpoolbrothers.com/shujuji/445.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有