当前位置: CNMO > 新闻 > 新闻 > 消息 > 正文

亚马逊将发布海量数据集 供Alexa技能挑战参赛队使用

CNMO 【编译】 作者:陈祥凯,韩媛 韩媛 2019-04-03 10:45
评论(0
分享

  【CNMO新闻】亚马逊计划开源海量与自然语言处理研究相关的数据样本。这家位于西雅图的科技巨头近日表示将在今年九月份发布Topical Chat数据集,这是一个提供给参加Alexa技能挑战赛的队伍使用的众源人类对话数据库。

亚马逊Alexa
亚马逊Alexa

  亚马逊透露Topical Chat数据集由超过21万个语句和410万个词语组成,这使它成为世界上规模最大的公共社会对话和知识数据集之一。数据集中的每段对话和每个对话活动都同相关的知识点相连,而这些知识点是从一系列“非结构化”和“结构松散”的文本资源中收集而来的。

  亚马逊高级科学家Dilek Hakkani-Tur在博客中明确指出该数据集中收录的对话里没有Alexa与用户之间的对话。“建立这一数据集的目的是让基于知识的神经反应生成系统下一步的研究工作更加可行,并解决其它开源数据集没有解决的存在于自然对话中的挑战,”Hakkani-Tur说,“这将支持研究者更好地研究人类对话方式以及将事实和意见融入进对话中的能力。”

  亚马逊表示参加Alexa Prize大赛的队伍将可以使用该数据集的拓展版本“Extended Topical Chat”,其中囊括了正在进行的数据收集和分类结果。

分享

加入收藏

网友评论 0条评论
用其他账号登录:
请稍后,数据加载中...
查看全部0条评论 >
火热围观
潮机范儿

Copyright © 2007 - 北京沃德斯玛特网络科技有限责任公司.All rights reserved 发邮件给我们
京ICP证-070681号 京ICP备09081256号 京公网安备 11010502036320号