In the vision domain, dataset distillation arises as a technique to condense a large dataset into a smaller synthetic one that exhibits a similar result in the training process. While image data presents an extensive literature of distillation methods, text dataset distillation has fewer works in comparison. Text dataset distillation initially grew as an adaptation of efforts from the vision universe, as the particularities of the modality became clear obstacles, it rose into a separate branch of research. Several milestones mark the development of this area, such as the introduction of methods that use transformer models, the generation of discrete synthetic text, and the scaling to decoder-only models with over 1B parameters. Despite major advances in modern approaches, the field remains in a maturing phase, with room for improvement on benchmarking standardization, approaches to overcome the discrete nature of text, handling complex tasks, and providing explicit examples of real-world applications. In this report, we review past and recent advances in dataset distillation for text, highlighting different distillation strategies, key contributions, and general challenges.


翻译:在视觉领域,数据集蒸馏作为一种技术,旨在将大规模数据集压缩为较小的合成数据集,使其在训练过程中产生相似的结果。尽管图像数据领域已积累了丰富的蒸馏方法文献,但相比之下,文本数据集蒸馏的研究成果较少。文本数据集蒸馏最初是作为视觉领域研究成果的适应性应用而兴起的,但随着文本模态的特殊性逐渐成为明显障碍,该领域已发展为一个独立的研究分支。该领域的发展历程中有若干里程碑,例如引入基于Transformer模型的方法、生成离散合成文本,以及扩展至参数超过10亿的仅解码器模型。尽管现代方法取得了重大进展,但该领域仍处于成熟阶段,在基准测试标准化、克服文本离散性的方法、处理复杂任务以及提供实际应用场景的明确示例等方面仍有改进空间。本报告回顾了文本数据集蒸馏领域过去及近期的进展,重点阐述了不同的蒸馏策略、关键贡献及普遍挑战。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
96+阅读 · 2020年3月25日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员