机器学习中原型学习研究进展

2022 年 1 月 18 日 专知

随着信息技术在社会各领域的深入渗透，人类社会所拥有的数据总量达到了一个前所未有的高度.一方面，海量数据为基于数据驱动的机器学习方法获取有价值信息提供了充分空间；另一方面，高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.为消除数据冗余、发现数据结构、提高数据质量，原型学习是一种行之有效的方式.通过寻找一个原型集来表示目标集，以从样本空间进行数据约简，在增强数据可用性的同时，提升机器学习算法的执行效率.其可行性在众多应用领域中已得到证明.因此，原型学习相关理论与方法的研究是当前机器学习领域的一个研究热点与重点.该文主要介绍了原型学习的研究背景和应用价值，概括介绍了各类原型学习相关方法的基本特性、原型的质量评估以及典型应用.接着，从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展，其中前者主要涉及无监督、半监督和全监督方式；后者包括基于相似度，行列式点过程，数据重构和低秩逼近四大类原型学习方法.最后，对原型学习的未来发展方向进行了展望.

http://www.jos.org.cn/jos/article/abstract/6365

在当今信息爆炸时代,信息的种类和数量空前激增.面对如此海量的数据,以机器学习尤其是深度学习为核心的人工智能技术得到了长足的发展.然而,需要指出的是,数据在量上的膨胀未必能带来在质上的提高.如何有效地选择“用的了”且“用的好”的数据,如何从数据中获取最有用的信息,成为摆在机器学习研究中的重要问题.诚如《大趋势》的作者奈斯比特所说:“我们被数据淹没,但却渴求着知识”[1].一方面,海量数据为基于数据驱动的机器学习方法获取有价值信息提供了充分空间;另一方面,高维度、过冗余以及高噪声也是上述繁多、复杂数据的固有特性.这不但造成存储资源的巨大浪费,而且还会显著提升学习算法的复杂度.更严重的是,它们还会将真正有价值的信息湮没从而恶化学习算法的性能.为消除数据冗余、发现数据结构、提高数据质量,从特征空间与样本空间进行数据约简是两种行之有效的方式,在增强数据可用性的同时,提升机器学习算法的执行效率.其中,前者涉及到的技术包括特征降维(dimensionality reduction)[2,3]和特征选择(feature selection)[4,5];而后者则涉及样本空间的原型生成(prototype generation)[6]和原型选择(prototype selection)[7].本文将样本空间的原型生成与选择,统称为原型学习(prototype learning).

实质上,原型学习问题涉及到众多领域的应用场景,因而作为机器学习的研究重点之一,与原型学习相关的理论与方法的研究得到了国际上众多学者的普遍关注.在国际有关机器学习的主流会议,如 Advances in Neural Information Processing Systems (NIPS)、International Conference on Machine Learning (ICML)、International Joint Conference on Artificial Intelligence (IJCAI)和 AAAI Conference on Artificial Intelligence (AAAI)等,以及 IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI)、Journal of Machine Learning Research (JMLR)等重要国际杂志上每年都有大量的关于原型学习的最新工作发表.此外,来自美国东北大学的 Ehsan Elhamifar 教授、耶鲁大学的 Amin Karbasi 教授、IBM Research AI 的 Rameswar Panda 研究科学家等在 Computer Vision and Pattern Recognition (CVPR’16, CVPR’18, CVPR’19)国际会议上,专门组织了关于原型选择中的算法与优化的专题讲座[8,9].通过以上大量文献梳理可以看出,原型学习的研究成果有助于挖掘出数据中最具价值的信息,提高用于机器学习的数据质量,降低机器学习算法的计算复杂度、节约目标数据的存储成本、实现机器学习模型的轻量化(模型压缩)等.同时,这也为大数据时代下的计算机视觉、图像与自然语言处理、生物医学、信息推荐等领域提供理论基础与技术支撑,满足与原型学习有关的应用需求.

鉴于原型学习问题在机器学习中的重要性,国内一些研究机构近些年也对此开展了相关研究,诸如南京理工大学的杨静宇教授课题组[10]、西安电子科技大学的焦李成教授课题组[11]、清华大学的张长水教授课题组[12]、南京大学的周志华教授课题组[13]、北京大学的张志华教授课题组[14]、中国科学院自动化研究所的刘成林研究员课题组[15]等.这些课题组的工作主要围绕监督条件下的核学习、主动学习以及示例学习中的原型选择、矩阵列选择问题、图像分类中的原型学习等进行研究.此外,国内的一些研究学者还基于粗糙集理论从数据的不确定性角度开展数据约简研究[16],这类方法虽然能够有效去除数据冗余,进而发现数据结构,但是对获得的原型的代表性缺乏直观物理解释,并且原型的质量还不足以满足众多应用的需求.更为重要的是,尽管目前国内外学者已经发表大量关于原型学习的研究成果,但是关于原型学习的综述性文献却很稀少,对于原型的定义与解释也不够清晰.因此本文梳理了原型学习领域的相关文献,对不同文献所采用的方案、面向的应用以及存在的问题进行归纳总结.通过对前人工作的学习与理解,我们能够发现原型学习领域研究近几十年的理论与应用发展脉络.同时,通过分析近几年原型学习领域的最新研究成果,我们可以把握当前主流的研究兴趣与方向,探究诸多应用背景对原型学习的具体需求,从而对未来原型学习研究的理论与应用发展方向进行一定的预测,进而更高效地地服务实际应用.

具体来说,本文首先赋予原型学习明确的数学定义与物理概念,并介绍原型学习的研究背景和应用价值. 接下来依据目前相关文献的内容,概括介绍了各类原型学习方法的基本特性、原型的质量评估标准以及原型学习的典型应用.在此基础上,我们进一步挑选不同类型原型学习方法中具有代表性的文献,对其解决的问题以及方法进行深入介绍.从原型学习的监督方式及模型设计两个视角重点介绍了原型学习的研究进展,其中前者主要涉及无监督、半监督和全监督方式;后者包括基于相似度,行列式点过程,数据重构和低秩逼近四大类原型学习方法.最后,重新梳理原型学习领域研究的发展脉络,综合文献研究成果及应用实例,根据目前研究中存在的问题及原型学习研究领域发展趋势探讨未来可能的发展方向.