每天都会产生大量的书面和转录媒体,如果没有大量的人力,情报分析师不可能对其进行筛选。然而,多语言模型可以通过解析非相关文章,帮助情报分析师选择与其问题集相关的媒体文章,即使这些文章是用外语或低资源语言撰写的。全球事件语言和语调数据库(GDELT)是一个近乎实时的媒体数据库,每 15 分钟就会发布新的开源文章集,但其自动事件编码往往会导致大量假阳性样本。要创建一个有效的多语言语言模型来解析开源文章,就必须对开源文章进行准确的分类和标记训练。本论文使用综合危机预警系统(ICEWS)中经自动编码和人工验证的开源文章作为训练数据,对多语言模型进行微调,以识别 GDELT 数据库中的假阳性开源文章。经过微调的多语言模型被叠加到 GDELT 搜索算法上,以消除许多误报结果,使情报分析人员能够在相关公开源文章发表后几分钟内获得更多信息,并能更及时地收集相关信息。

成为VIP会员查看完整内容
43

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《先进规划辅助工具的情报数据模型》2023最新91页论文
专知会员服务
71+阅读 · 2023年8月28日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
26+阅读 · 2023年5月15日
《贝叶斯神经网络的联邦学习》2023最新73页论文
专知会员服务
57+阅读 · 2023年5月7日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员