With the rapid evolution of social media, fake news has become a significant social problem, which cannot be addressed in a timely manner using manual investigation. This has motivated numerous studies on automating fake news detection. Most studies explore supervised training models with different modalities (e.g., text, images, and propagation networks) of news records to identify fake news. However, the performance of such techniques generally drops if news records are coming from different domains (e.g., politics, entertainment), especially for domains that are unseen or rarely-seen during training. As motivation, we empirically show that news records from different domains have significantly different word usage and propagation patterns. Furthermore, due to the sheer volume of unlabelled news records, it is challenging to select news records for manual labelling so that the domain-coverage of the labelled dataset is maximized. Hence, this work: (1) proposes a novel framework that jointly preserves domain-specific and cross-domain knowledge in news records to detect fake news from different domains; and (2) introduces an unsupervised technique to select a set of unlabelled informative news records for manual labelling, which can be ultimately used to train a fake news detection model that performs well for many domains while minimizing the labelling cost. Our experiments show that the integration of the proposed fake news model and the selective annotation approach achieves state-of-the-art performance for cross-domain news datasets, while yielding notable improvements for rarely-appearing domains in news datasets.


翻译:随着社交媒体的迅速演变,假新闻已成为一个重大的社会问题,无法通过人工调查及时解决。这促使了许多关于假新闻探测自动化的研究。大多数研究探索了以不同方式(如文本、图像和传播网络)对新闻记录进行监管的培训模式,以识别假新闻。然而,如果新闻记录来自不同领域(如政治、娱乐),这些技术的绩效一般会下降,特别是对于培训期间不为人知或很少见的领域。作为动机,我们从经验上表明,不同领域的新闻记录有显著不同的文字使用和传播模式。此外,由于大量未贴标签的新闻记录,因此选择手工标签的新闻记录具有挑战性,以便尽可能扩大贴标签数据集的域覆盖。因此,这项工作:(1) 提出一个新框架,共同保存特定领域和交叉在新闻记录中的交叉知识,以探测来自不同领域的假新闻;(2) 引入一种未经反复检验的技术,以选择一组未贴标签的新闻记录用于手工标签的版本。此外,由于大量未贴标签的新闻记录,因此,很难选择用于手工标签的域,从而最大限度地扩大贴标签标签。因此,将标有标签的数据集的域进行模拟检测,同时进行模拟的模拟的模拟的模拟数据模拟测试。

1
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
30+阅读 · 2020年4月8日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
已删除
将门创投
6+阅读 · 2019年4月10日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年4月6日
Arxiv
13+阅读 · 2020年10月19日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
已删除
将门创投
6+阅读 · 2019年4月10日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员