Community Question Answering (CQA) fora such as Stack Overflow and Yahoo! Answers contain a rich resource of answers to a wide range of community-based questions. Each question thread can receive a large number of answers with different perspectives. One goal of answer summarization is to produce a summary that reflects the range of answer perspectives. A major obstacle for abstractive answer summarization is the absence of a dataset to provide supervision for producing such summaries. Recent works propose heuristics to create such data, but these are often noisy and do not cover all perspectives present in the answers. This work introduces a novel dataset of 4,631 CQA threads for answer summarization, curated by professional linguists. Our pipeline gathers annotations for all subtasks involved in answer summarization, including the selection of answer sentences relevant to the question, grouping these sentences based on perspectives, summarizing each perspective, and producing an overall summary. We analyze and benchmark state-of-the-art models on these subtasks and introduce a novel unsupervised approach for multi-perspective data augmentation, that further boosts overall summarization performance according to automatic evaluation. Finally, we propose reinforcement learning rewards to improve factual consistency and answer coverage and analyze areas for improvement.


翻译:社区问题解答( CQA) 论坛, 如 Stack Overflow 和 Yahoo 。 答案包含对一系列社区问题解答的丰富资源。 每条问题线索都可以从不同角度获得大量解答。 答案总和的一个目标是产生一个反映解答观点的概要。 抽象解答总和的一个主要障碍是缺少一个数据集来监督这种摘要的编制工作。 最近的工作提出了创建这类数据的理论,但这些数据往往很吵闹,没有涵盖答案中的所有观点。 这项工作引入了一套4,631 CQA线索的新数据集,由专业语言学家整理,用于回答总和。 我们的管道收集了与解答总和相关的所有子任务的说明,包括选择与问题相关的答案句子,根据视角将这些句子组合起来,概述每个视角,并产生一个总体摘要。 我们对这些子任务中的最新模型进行分析和基准,并引入了一种新型的、不统一的方法,用于多视角数据增强, 由专业语言语言语言学家整理, 从而进一步提升整体分析质量。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
专知会员服务
143+阅读 · 2021年9月16日
专知会员服务
123+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年12月18日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
4+阅读 · 2017年4月12日
VIP会员
相关VIP内容
专知会员服务
143+阅读 · 2021年9月16日
专知会员服务
123+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
【资源】问答阅读理解资源列表
专知
3+阅读 · 2020年7月25日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
计算机 | IUI 2020等国际会议信息4条
Call4Papers
6+阅读 · 2019年6月17日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年12月18日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
4+阅读 · 2017年4月12日
Top
微信扫码咨询专知VIP会员