《利用大数据和机器学习识别并预测影响乌克兰战争的因素》2023最新75页论文

军事分析人员可利用公开数据库深入了解相关国际事件的发展。然而，这些数据库依赖于以英语为基础、经过整理的资料来源。这可能会导致偏差，不利于分析质量，尤其是在关注英语不是主要语言的地区和行动者时更是如此。

本研究旨在利用全球事件、语言和语调数据库（GDELT）数据集来预测影响乌克兰战争的重要因素，并将使用提取的数据和机器学习技术来开发预测模型。该项目旨在实现两个目标。首先，提供一种从大数据集合中自动提取和预处理相关事件数据的方法。其次，将不同的机器学习模型应用于提取的数据，以预测重要因素，从而识别持续冲突中的事件趋势。

所展示的数据采购可自由扩展到不同地区、行为体或其组合。在应用程序接口（API）中配置所需的参数后，相关的 GDELT 事件将自动提取。

由于本论文的重点在于预测，因此建模技术的应用侧重于时间序列和递归神经网络（RNN）模型。在测试过的时间序列预测模型中，自回归综合移动平均（ARIMA）模型与其他候选模型和天真模型相比，显示出良好的预测性能。应用时间序列模型预测一至三个月的中期趋势取得了最佳结果。

为了补充时间序列模型并利用 GDELT 的短期更新间隔，我们建立了不同类型的 RNN，并测试了它们在事件数量短期预测方面的性能。简单 RNN 与长短期记忆 (LSTM) RNN 进行了比较，结果发现，简单 RNN 的性能不如 LSTM RNN 模型。由此得出的结论是，数据中确实存在影响模型预测能力的长期和短期效应。

除了最初的跨语言 GDELT 数据库，RNN 模型还运行了仅基于英语来源的 GDELT 数据提取，以及来自武装冲突地点和事件数据项目（ACLED）数据库的数据提取。

总体而言，在几乎所有测试的模型中，使用基于英语来源的数据集都能获得更好的均方根误差值。不过，这并不一定意味着模型在捕捉现实生活中的变化方面表现更好。一项补充性探索数据分析（EDA）得出结论，在以英语为基础的报告中，一系列事件的代表性不足。这一点在乌克兰战争前奏期间尤为明显，因为西方公众对该地区的兴趣和英语报道的一致性有时会降温。事件报道不足导致数据的可变性较低，一致性较高，从而提高了基于英语模式的绩效指标。

关于 RNN 模型在 ACLED 数据库中的性能，除了 "爆炸/远程暴力 "和 "战斗 "这两种事件类型外，本研究选择的模型无法应用于 ACLED 数据提取。造成兼容性低的原因是报告事件的数量较少，以及报告中的空白与所选模型的相关性不高。

不同数据源之间的性能比较表明，要持续产生可靠的结果，挑选合适的预测因子和对结果进行初步分析并不容易实现自动化。强烈建议每次从 GDELT 首次提取新型数据子集时都进行一次 EDA。