干货书《数据融合：理论、方法和应用》289页

2023 年 4 月 4 日 专知

在信息时代，对大型复杂数据集进行适当的融合是必要的。仅仅处理几条记录就已经迫使人脑在数据中寻找模式，并形成其整体图景，而不是把现实想象成一组单独的实体，这对处理和分析来说要困难得多。同样，使用适当的方法来减少计算机上的信息过载，不仅可以提高结果的质量，还可以大大减少算法的运行时间。

众所周知，依赖于单一信息源的信息系统（例如，从一个传感器收集的测量数据、单一权威决策者的意见、一个且仅有一个机器学习算法的输出、单个社会调查者的回答）往往既不准确也不可靠。

聚合理论是一个相对较新的研究领域，尽管古代数学家已经知道并使用各种特定的数据融合方法。自20世纪80年代以来，对聚合函数的研究往往集中在构建和正式的数学分析上，即用不同的方法来总结元素在某个实数区间I=[a, b]的数字列表。这包括不同种类的广义手段、模糊逻辑连接词（t-norms，模糊含义）以及协同学。最近，我们观察到人们对部分有序集合的聚集越来越感兴趣，特别是在序数（语言）尺度上。

在面向应用数学的经典聚合理论的开创性专著中，有《聚合函数》：A Guide for Practitioners [49]，作者Beliakov, Pradera, and Calvo，以及Grabisch, Marichal, Mesiar, and Pap的聚合函数[230]。我们注意到，聚合理论家所使用的典型数学武器由代数、微积分、秩序和度量理论等已知方法的非常有创意的组合组成（事实上，聚合理论的结果对这些子领域也有很大贡献）。更重要的是，在以下教科书中，对聚集函数的特定子类进行了深入研究：Klement, Mesiar和Pap撰写的《三角形规范》[277]，Baczyński和Jayaram的《模糊含义》[18]，Bullen的《均值及其不等式手册》[87]，以及最近由Beliakov, Bustince和Calvo撰写的《平均函数实用指南》[39]。我们还将提到Torra和Narukawa的书（《建模决策：信息融合和聚合操作符》[449]），这也许是所列作品中最面向计算机科学的作品。然而，在[49]和[39]中也讨论了许多有趣的算法和计算问题。

在2013年西班牙潘普洛纳举行的AGOP--聚合算子国际暑期学校会议上，Bernard De Baets教授在他的全体演讲[137]中指出，需要传达关于所谓聚合2.0的研究。当然，聚合2.0的目的不是要取代或在任何方面贬低非常成功和重要的经典聚合领域，而是要吸引研究者关注新的、更复杂的领域，其中大多数领域不使用计算方法是无法正确处理的。从这个角度来看，数据融合工具可以被嵌入到更大、更复杂的信息处理系统中，从而作为其关键组成部分来研究。

适当的复杂数据融合已经引起了不同领域的许多研究人员的兴趣，包括计算统计、计算几何、生物信息学、机器学习、模式识别、质量管理、工程、统计、金融、经济等。让我们注意到，它在以下方面起着至关重要的作用：

对数据过程或整个领域的合成描述、
为近似推理任务创建规则库，
在决策支持系统中达成共识并选择最佳策略、
缺失值的归纳、
重复数据删除和合并、
异质数据库之间的记录联系、
自动数据分割算法的构建（例如，比较K-means和分层聚类算法）。

我们观察到，许多有用的机器学习方法是基于信息实体的适当聚合。特别是，用于分类的一类集合方法在实践中非常成功，因为假设没有一个 "弱 "的分类器能像它们整个组一样表现出色。有趣的是，在Kaggle和类似平台上的数据挖掘竞赛中，许多获胜的解决方案都是以随机森林和类似算法为基础的。更重要的是，例如，神经网络--通用逼近器--和其他深度学习工具可以被理解为单个融合函数的层次结构。因此，它们也可以被认为是一种聚合技术。我们还应该提到，适当的数据融合对商业企业至关重要。由于许多原因，公司很少急于将他们所拥有的大部分数据集出售给客户。相反，只有经过仔细预处理和聚合的数据模型才能交付给客户。

本专著首次尝试使用成熟的经典聚合框架的方法来整合不同领域的分散结果，向研究人员和从业人员介绍聚合2.0，并指出进一步研究的挑战和有趣的方向。本报告的结构如下。

在第1章中，我们回顾了经典的聚合结果，这些结果处理的是数字图元的聚合，这些图元的元素在某个实数区间I=[a, b]或]a, b[。我们列出了这样一个领域中融合函数的一些有趣的属性，这些属性在各种实际应用中可能是至关重要的。尽管所描述的数据模型乍一看很简单，但它将为我们提供对更复杂的数据融合过程的本质的深刻见解。特别是，我们特别关注单调性的概念。

然后，我们讨论了一般的构造方法，这些方法可以用来从较简单的函数中导出新的融合函数。此外，我们还介绍了聚合函数与单调性（模糊）度量和积分之间的联系，并介绍了基于惩罚的和扩展的融合函数的概念。

接着，我们提出了不同的方法，这些方法可以帮助为不同的任务选择适当的工具。这包括特征化定理、合成数字特征以及从经验数据中学习融合函数的算法。

此外，我们还介绍了在序数尺度和--更普遍的--有界部分有序集以及名义尺度上的数据聚合的主题。

第2章讨论了d维数据的聚合，这次是d>1。我们的出发点是数据融合工具，这些工具在计算统计和计算几何等领域被研究。在它们的重要属性中，我们发现，例如，对特定几何变换的等价性，以及前一章所研究的一些属性的概括。我们注意到，最简单的融合函数可以通过一维映射的分量扩展来构造。其他的则是基于数据深度或惩罚最小化的概念。

我们还对积网和字符序列上的聚合感兴趣，特别是与汉明距离有关的聚合。

在第3章中，我们重点讨论了字符串的聚合问题，即长度不一定一致的图元。在这种情况下，可以定义各种排序关系，例如，词法排序。我们感兴趣的数据类型包括代表计量信息数据的数字字符串，以及字符字符串，如DNA和蛋白质序列。事实证明，在这样的领域中最有影响力的数据融合方法可以表示为各种基于字符串距离的惩罚措施的最小化。正因为如此，我们包括了对字符串度量的全面概述。这包括通用编辑、Q-gram和Dinu等级距离的概念。
第4章涉及更复杂的数据类型的聚合：方向性数据、实数区间、模糊数、随机变量、图和关系，以及异质数据集。我们将观察到，数据融合中的一些关键思想可以推导出这些类型的数据模型。
最后，在第5章中，我们将讨论不同对象的各种数字特征。这个话题不可避免地与数据聚合有关。特别是，我们对概率分布的合成描述、数字列表的传播、决策者的共识、经济上的不公平、信息化数据、模糊数字和融合函数本身感兴趣。在本章的最后，我们讨论了所谓的校验和，正如它将被证明的那样，它需要一个与其他措施完全不同的处理。
在附录中，按照[49]的优秀方法，我们提供了最有趣的算法的实现。为此，我们使用R[397]和C++11编程语言。在后一种情况下，Rcpp包类[177]被用来作为这两种语言之间的联系。

除了提供一个关于不同领域的融合函数的全局性简明观点（"聚合2.0"），本专著的原创性贡献（在撰写时尚未发表）包括但不限于

第1章：增量融合函数作为递归聚合工具的概括的想法（定义1.121）；从经验数据中学习聚合算子的新方法，包括第1.6.1节中的最小切比雪夫度量拟合任务，第1.6.2.B节中保留输出排名的最小二乘误差拟合，应用权重正则化防止模型过拟合，用准算术平均值拟合权重（没有变量线性化）；第1.8节中关于名义尺度上元素聚合的一些说明。
第2章：扩展在[208]中发表的关于d维实数图元聚合的结果，包括命题2.13、2.14、2.19、2.24、2.32和2.30；在第2节中构建了基于SVD的相似性变换等值融合函数。2.3；在第2.5.5节中提出了基于惩罚的多维融合函数的框架及其一般性质（特别是命题2.54）；一种新的进化算法，用于逼近基于汉明距离的1中心字符序列。
第3章：关于信息计量数据聚合的新结果（命题3.8和3.14），关于此类数据融合工具应满足的理想属性清单的建议，第3.2节中数字字符串的新聚合方法。3，包括假设I=[0, ∞]下的计量信息数据的1-median；计算两个字符串的中心点的精确算法，以及关于列文斯坦距离的任意数字或字符串的1-median的进化算法，第3.3节中关于字符序列和字符串的融合函数的理想属性列表。
第4章：第4.6节中的任意有限半计量空间中的快速近似集典范搜索算法。
第5章：第5.2.3节中对多维数字列表的传播关系[209]的概括，以及新的传播度量的构造方法列表。