表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一。近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法。其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战。

随着信息化系统在众多行业广泛应用,电子文 档中嵌入的各类型表格及关系数据库表承载了丰富 的信息,成为支撑领域信息交互和智能决策的重要 数据基础[1]。例如,医疗领域已积累了海量的电子 病历文档,其中蕴含了大量的表格信息。如何准确、 快速地从中挖掘出有价值的医学信息,为疾病风险 评估、智能辅助诊疗及医疗知识问答等提供支撑,已 成为智慧医疗研究领域的重要任务[2]。在桥梁管理 养护领域,定期检测报告中存在大量表格,众多桥梁 管理信息系统的数据库表中也记录了细粒度结构病 害、养护建议等信息,是实现桥梁智能管养的重要基 础[3]。目前,以SQL为典型代表的结构化查询语言 是访问关系型数据库表数据的主要途径,但普通系 统用户不具备编写SQL语句的技术基础[4]。因此, 如何使用自然语言等交互方式,实现表格信息智能 检索与问答,已成为学术界和产业界关注的热点问 题之一。现有解决方案主要采用语义解析的方式实 现用户问题与表格数据的交互。其中,Test-to-SQL 是其关键技术。该类方法主要实现从自然语言问句 到SQL查询语句的映射,并将生成的 SQL 语句输 入到SQL引擎中检索出对应的答案。因此,Textto-SQL映射准确率直接影响了其问答效果。

智能问答作为人工智能研究的一项重要任务,综合运用了自然语言处理、深度神经网络及知识图 谱等多种方法。其中,知识图谱问答以基于三元组 结构的语义网络为数据源通过信息检索或语义解析 两种模式实现交互式问答[5]。例如,信息检索式知 识图谱问答首先识别问题主题词,并通过实体匹配 和答案生成等步骤完成问答任务。以文本段落作为 数据源的机器阅读理解任务要求计算机根据给定上 下文回答特定问题,也是智能问答领域研究热点之 一[6]。表格信息抽取任务主要从表格数据中抽取语 义一致的结构化信息,是知识图谱构建等任务的基 础。另外,表格问答以文档表格、数据库表等为数据 源,将自然语言问题语句与表格中的结构化或半结 构化信息相匹配获取答案。表格问答不仅可以直观 地回答自然语言问题,还可以通过排序、聚合等操作 推理出复杂答案,具备较强实际应用价值。然而,与 机器阅读理解和知识图谱问答相比,表格数据存储 形式复杂、多样,在表格的上下文语义理解、问题解 析与匹配等方面均面临更大挑战。如图1所示,表 格问答最初以自然语言-数据库接口形式提出,但由 于其复杂程度导致其在很长时间内发展相当缓慢。 随着深度学习的发展,以 Text-to-SQL为主的语义解 析成 为 研 究 热 点。2017 年 以 来,随 着 WiKiSQL [7] 数据集的发布,单表单轮式表格问答获得广泛关注。 随着单表单轮式表格问答技术的日渐成熟,从实际 应用出发的多表单轮式表格问答逐步兴起。随后, 与对 话 系 统 结 合,表 格 问 答 扩 展 到 多 轮 的 形 式。 2021年起,随着预训练模型 在 表 格 问 答 领 域 的 探 索,各类表格问答任务性能均得到大幅提升。 目前,已有研究人员从不同角度对表格问答相 关工作做出了总结回顾。李智等人[8]从语义解析的 角度分析了基于表格知识库的问答模型、算法特点 及其相关问题,但该综述仅介绍了传统的语义解析 方法,未系统总结目前表格问答领域前沿的预训练 模型等内容。Zhang等人[9]研究了 Web表格的提 取、搜索、问答等任务,并指出不同任务之间的依赖 关系,但该综述仅针对 Web表格,对其他表格形式 尚未做出深入讨论,且表格问答任务未得到详细分 析。Dong等人[10]从预训练模型角度出发,介绍了 表格预训练模型设计、训练目标和下游任务,探讨了 现有 表 格 预 训 练 模 型,但 未 聚 焦 表 格 问 答 任 务。 Qin等人[11]将 Text-to-SQL语料分为单轮和多轮, 分别总结其编码器和解码器架构,并详细阐述了现 有预训练表格模型的预训练目标。梁清源等人[4]从 SQL生成场景、数据集、模型结构和评估方法层面 对基于深度学习的 SQL 生成研究进行分类综述。 但该文仅介绍了基于深度学习的SQL生成方法,未 对传统的方法以及表格问答的发展脉络进行总结。 与上述工作不同的是,本文从不同表格类型分 类及其问答任务问题定义为出发点,系统性地总结 各类表格问答任务的数据集及其代表性方法,介绍 主流表格预训练模型,探讨当前工作的优势与不足, 展望表格问答研究的前景与挑战

成为VIP会员查看完整内容
20

相关内容

情感对话技术综述
专知会员服务
26+阅读 · 4月3日
与知识相结合的提示学习研究综述
专知会员服务
38+阅读 · 2023年9月22日
常识问答研究综述
专知会员服务
32+阅读 · 2023年8月19日
知识图谱推理研究综述
专知会员服务
182+阅读 · 2022年6月14日
个性化学习推荐研究综述
专知会员服务
58+阅读 · 2022年2月2日
开放型对话技术研究综述
专知会员服务
36+阅读 · 2021年12月28日
文本立场检测综述
专知会员服务
29+阅读 · 2021年11月2日
专知会员服务
33+阅读 · 2021年9月8日
专知会员服务
35+阅读 · 2021年8月25日
专知会员服务
23+阅读 · 2020年9月11日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
智能合约的形式化验证方法研究综述
专知
14+阅读 · 2021年5月8日
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
时空序列预测方法综述
专知
18+阅读 · 2020年10月19日
领域知识图谱研究综述
专知
15+阅读 · 2020年8月2日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
动态知识图谱补全论文合集
专知
60+阅读 · 2019年4月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
137+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
337+阅读 · 2023年3月31日
Arxiv
57+阅读 · 2023年3月26日
Arxiv
117+阅读 · 2023年3月24日
Arxiv
17+阅读 · 2023年3月17日
VIP会员
相关主题
相关VIP内容
情感对话技术综述
专知会员服务
26+阅读 · 4月3日
与知识相结合的提示学习研究综述
专知会员服务
38+阅读 · 2023年9月22日
常识问答研究综述
专知会员服务
32+阅读 · 2023年8月19日
知识图谱推理研究综述
专知会员服务
182+阅读 · 2022年6月14日
个性化学习推荐研究综述
专知会员服务
58+阅读 · 2022年2月2日
开放型对话技术研究综述
专知会员服务
36+阅读 · 2021年12月28日
文本立场检测综述
专知会员服务
29+阅读 · 2021年11月2日
专知会员服务
33+阅读 · 2021年9月8日
专知会员服务
35+阅读 · 2021年8月25日
专知会员服务
23+阅读 · 2020年9月11日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
智能合约的形式化验证方法研究综述
专知
14+阅读 · 2021年5月8日
图像修复研究进展综述
专知
16+阅读 · 2021年3月9日
时空序列预测方法综述
专知
18+阅读 · 2020年10月19日
领域知识图谱研究综述
专知
15+阅读 · 2020年8月2日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
动态知识图谱补全论文合集
专知
60+阅读 · 2019年4月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员