军事分析人员可利用公开数据库深入了解相关国际事件的发展。然而,这些数据库依赖于以英语为基础、经过整理的资料来源。这可能会导致偏差,不利于分析质量,尤其是在关注英语不是主要语言的地区和行动者时更是如此。

本研究旨在利用全球事件、语言和语调数据库(GDELT)数据集来预测影响乌克兰战争的重要因素,并将使用提取的数据和机器学习技术来开发预测模型。该项目旨在实现两个目标。首先,提供一种从大数据集合中自动提取和预处理相关事件数据的方法。其次,将不同的机器学习模型应用于提取的数据,以预测重要因素,从而识别持续冲突中的事件趋势。

所展示的数据采购可自由扩展到不同地区、行为体或其组合。在应用程序接口(API)中配置所需的参数后,相关的 GDELT 事件将自动提取。

由于本论文的重点在于预测,因此建模技术的应用侧重于时间序列和递归神经网络(RNN)模型。在测试过的时间序列预测模型中,自回归综合移动平均(ARIMA)模型与其他候选模型和天真模型相比,显示出良好的预测性能。应用时间序列模型预测一至三个月的中期趋势取得了最佳结果。

为了补充时间序列模型并利用 GDELT 的短期更新间隔,我们建立了不同类型的 RNN,并测试了它们在事件数量短期预测方面的性能。简单 RNN 与长短期记忆 (LSTM) RNN 进行了比较,结果发现,简单 RNN 的性能不如 LSTM RNN 模型。由此得出的结论是,数据中确实存在影响模型预测能力的长期和短期效应。

除了最初的跨语言 GDELT 数据库,RNN 模型还运行了仅基于英语来源的 GDELT 数据提取,以及来自武装冲突地点和事件数据项目(ACLED)数据库的数据提取。

总体而言,在几乎所有测试的模型中,使用基于英语来源的数据集都能获得更好的均方根误差值。不过,这并不一定意味着模型在捕捉现实生活中的变化方面表现更好。一项补充性探索数据分析(EDA)得出结论,在以英语为基础的报告中,一系列事件的代表性不足。这一点在乌克兰战争前奏期间尤为明显,因为西方公众对该地区的兴趣和英语报道的一致性有时会降温。事件报道不足导致数据的可变性较低,一致性较高,从而提高了基于英语模式的绩效指标。

关于 RNN 模型在 ACLED 数据库中的性能,除了 "爆炸/远程暴力 "和 "战斗 "这两种事件类型外,本研究选择的模型无法应用于 ACLED 数据提取。造成兼容性低的原因是报告事件的数量较少,以及报告中的空白与所选模型的相关性不高。

不同数据源之间的性能比较表明,要持续产生可靠的结果,挑选合适的预测因子和对结果进行初步分析并不容易实现自动化。强烈建议每次从 GDELT 首次提取新型数据子集时都进行一次 EDA。

图 3.1. GDELT 事件数据库中一个数据元素的示意图。矩形代表中心数据元素,即事件。圆圈代表属性,属性 "GlobalEventID "用作唯一标识符。提及和音调 "属性是灰色的,因为它不属于本工作的范围。

成为VIP会员查看完整内容
52

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《先进规划辅助工具的情报数据模型》2023最新91页论文
专知会员服务
70+阅读 · 2023年8月28日
《预测战术部队的未来目的地》2023最新55页论文
专知会员服务
38+阅读 · 2023年8月28日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
9+阅读 · 2014年12月31日
国家自然科学基金
43+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员