你可以在没有信息的情况下拥有数据,但你不能在没有数据的情况下拥有信息。 -Daniel Moran
与其他自然语言处理任务一样,Text2SQL高度依赖所使用的数据集类型。已经创建了具有不同结构、长度和查询的不同数据集。语义解析领域共有9个数据集,其中SPIDER是当前的基准数据集。
本博客涉及的数据集:
每个数据集的创建都基于不同的任务。例如,设计ATIS数据集是为了测量包括语音和自然语言成分的口语系统的进展。
让我们一个接一个地了解它们…
ATIS语料库包括从官方航空指南收集的数据,按照关系模式组织。
它由25个表组成,其中包含关于票价、航空公司、航班、城市、机场和地面服务的信息。可以使用单个关系查询回答与此数据集相关的问题。
与此数据集对应的关系数据库被设计为以直观的方式回答查询,即使用更短的表来回答。
ATIS数据集查询示例:输入为自然语言形式,输出为λ微积分形式。
地理查询数据集包含美国地理信息。它有大约800个facts表达在Prolog。
这个数据库包含关于州、城市、河流和山脉的信息。
属性主要由首都、人口密度等地理和地形属性构成。
IMDb数据集是来自IMDb的50K条评论的巨大集合。每部电影的评论限制在30条以内。
数据集由相同数量的正面和负面评论组成。
数据集的创造者考虑了高度极化的评论,即分数≤4分的负面评论和分数≥7分的正面评论。
在创建数据集时,不考虑中性评论。
数据集被平均分配用于训练和测试。
创建建议数据集是为了在text2SQL系统中提出改进建议。
数据集的创建者比较了人工生成和自动生成的问题,引用了与现实应用程序相关的查询属性。
数据集由来自大学生的关于课程的问题组成,这些问题会导致特别复杂的查询。数据库中学生的记录是虚构的。
数据集包括学生简介信息,如推荐的课程、成绩和学生以前的课程。
问题是由了解数据的学生提出的。
当SPIDER发布时,现有的最先进的模型给出了12.4%的精确匹配精度。这种低精确度表明SPIDER在研究中提出了一个强大的挑战。
在SPIDER上,当前的最佳精度是66%左右,而且是没有精确匹配值(指WHERE子句中的值)。而有值时大概63%左右。
更多关于SPIDER上不同模型的结果的信息可以在这里找到。
这就是所有的数据集。在第3部分中,我们将探讨在Text2SQL域的这些数据集上构建的一些高效模型。
敬请期待!