较大的探针呈现出不同的故事：通过上下文学习扩展心理语言学数据集 (Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning) - 专知论文

会员服务 ·

0

上下文学习 · 数据集 · GPT3 · 探针 · 基准 ·

2023 年 3 月 29 日

Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning

翻译：较大的探针呈现出不同的故事：通过上下文学习扩展心理语言学数据集

Namrata Shivagunde,Vladislav Lialin,Anna Rumshisky

Language model probing is often used to test specific capabilities of these models. However, conclusions from such studies may be limited when the probing benchmarks are small and lack statistical power. In this work, we introduce new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500) inspired by psycholinguistic studies. We dramatically extend existing NEG-136 and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44 sentence pairs to 750 each. We also create another version of extended negation dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It consists of 770 sentence pairs. We evaluate 22 models on the extended datasets, seeing model performance dip 20-57% compared to the original smaller benchmarks. We observe high levels of negation sensitivity in models like BERT and ALBERT demonstrating that previous findings might have been skewed due to smaller test sets. Finally, we observe that while GPT3 has generated all the examples in ROLE-1500 is only able to solve 24.6% of them during probing.

翻译：摘要：语言模型探究经常被用来测试这些模型的特定能力。然而，当探测基准小且缺乏统计能力时，这些研究的结论可能受到限制。在这项工作中，我们通过使用GPT3显著扩展已有的NEG-136和ROLE-88基准，将它们的大小从18和44个句子对扩大到750个，引入了新的、更大的数据集，这些数据集受到心理语言学研究的启发，包括否定(NEG-1500-SIMP)和角色翻转(ROLE-1500)。我们还创建了另一个扩展否定数据集(NEG-1500-SIMP-TEMP)，使用基于模板的生成创建，其中包含770个句子对。我们在扩展的数据集上评估了22个模型，看到模型的性能下降了20-57%，与原始较小的基准相比。我们观察到像BERT和ALBERT这样的模型具有高度的否定敏感性，表明以前的发现可能由于测试集较小而产生偏差。最后，我们观察到，虽然GPT3已经生成了ROLE-1500中的所有示例，在探测中只能解决24.6%的问题。

0

相关内容

上下文学习

上下文学习

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

瘢痕疙瘩中DAB-1抑制E3连接酶SIAH1对TIEG1泛素化介导TGF-β/Smads信号通路的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Foxg1对皮质中间神经元发育的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

CTCF介导染色质环调控血管生成素与核糖核酸酶-4基因差异表达的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

肝癌细胞上皮间质转化过程中Snai1介导的染色质长程作用与转录抑制

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-uc002mbe.2介导的HDACi凋亡效应及其在肝癌中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

非线性椭圆型偏微分方程的边界正则性

国家自然科学基金

0+阅读 · 2012年12月31日

一类随机偏微分方程解的存在唯一性和渐近性质

国家自然科学基金

0+阅读 · 2012年12月31日

MeCP2基因及其所在染色体Xq28区域基因序列重复在孤独症发病机制中的作用研究

国家自然科学基金

1+阅读 · 2008年12月31日

Asperger综合症情绪认知的神经心理调控机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

Segment Anything Model for Medical Images?

Arxiv

0+阅读 · 2023年5月19日

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

Arxiv

0+阅读 · 2023年5月18日

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Arxiv

0+阅读 · 2023年5月18日

Ranking-Enhanced Unsupervised Sentence Representation Learning

Arxiv

0+阅读 · 2023年5月18日

An Empirical Study on the Language Modal in Visual Question Answering

Arxiv

0+阅读 · 2023年5月17日

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

Arxiv

0+阅读 · 2023年5月16日

What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning

Arxiv

0+阅读 · 2023年5月16日

Content-Adaptive Downsampling in Convolutional Neural Networks

Arxiv

0+阅读 · 2023年5月16日

Online Continual Learning Without the Storage Constraint

Arxiv

0+阅读 · 2023年5月16日

A continual learning survey: Defying forgetting in classification tasks

Arxiv

32+阅读 · 2021年4月16日

VIP会员

文章信息

相关主题

上下文学习

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能绝不能完全自主》

《人工智能的法律与伦理：军事自主机器独特挑战的深度剖析》316页

从数据到主导：AI与兵棋推演构筑决策优势

《特洛伊木马货柜：武器化集装箱的战略威胁》最新报告

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

13+阅读 · 2018年6月24日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Segment Anything Model for Medical Images?

Arxiv

0+阅读 · 2023年5月19日

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models

Arxiv

0+阅读 · 2023年5月18日

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Arxiv

0+阅读 · 2023年5月18日

Ranking-Enhanced Unsupervised Sentence Representation Learning

Arxiv

0+阅读 · 2023年5月18日

An Empirical Study on the Language Modal in Visual Question Answering

Arxiv

0+阅读 · 2023年5月17日

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

Arxiv

0+阅读 · 2023年5月16日

What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning

Arxiv

0+阅读 · 2023年5月16日

Content-Adaptive Downsampling in Convolutional Neural Networks

Arxiv

0+阅读 · 2023年5月16日

Online Continual Learning Without the Storage Constraint

Arxiv

0+阅读 · 2023年5月16日

A continual learning survey: Defying forgetting in classification tasks

Arxiv

32+阅读 · 2021年4月16日

相关基金

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

瘢痕疙瘩中DAB-1抑制E3连接酶SIAH1对TIEG1泛素化介导TGF-β/Smads信号通路的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Foxg1对皮质中间神经元发育的调控机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

CTCF介导染色质环调控血管生成素与核糖核酸酶-4基因差异表达的作用研究

国家自然科学基金

0+阅读 · 2013年12月31日

肝癌细胞上皮间质转化过程中Snai1介导的染色质长程作用与转录抑制

国家自然科学基金

0+阅读 · 2013年12月31日

长链非编码RNA-uc002mbe.2介导的HDACi凋亡效应及其在肝癌中的作用

国家自然科学基金

0+阅读 · 2012年12月31日

非线性椭圆型偏微分方程的边界正则性

国家自然科学基金

0+阅读 · 2012年12月31日

一类随机偏微分方程解的存在唯一性和渐近性质

国家自然科学基金

0+阅读 · 2012年12月31日

MeCP2基因及其所在染色体Xq28区域基因序列重复在孤独症发病机制中的作用研究

国家自然科学基金

1+阅读 · 2008年12月31日

Asperger综合症情绪认知的神经心理调控机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员