海洋是高质量发展的要地,海洋科学大数据的发展为认知和经略海洋带来机遇的同时也引入了新的挑战。海洋科学大数据具有超多模态的显著特征,目前尚未形成面向海洋领域特色的多模态智能计算理论体系和技术框架。因此,本文首次从多模态数据技术的视角,系统性介绍面向海洋现象/过程的智能感知、认知和预知的交叉研究进展。首先,通过梳理海洋科学大数据全生命周期的阶段演进过程,明确海洋多模态智能计算的研究对象、科学问题和典型应用场景。其次,在海洋多模态大数据内容分析、推理预测和高性能计算三个典型应用场景中展开现有工作的系统性梳理和介绍。最后,针对海洋数据分布和计算模式的差异性,提出海洋多模态大数据表征建模、跨模态关联、推理预测、高性能计算四个关键科学问题中的挑战,并提出未来展望。
http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202112310000009&journal_id=jig
海洋是高质量发展的要地,是人类社会的未来。但目前对海洋系统的精细认知不足 5%。 通过观测、监测、调查、分析和统计获取的海洋大数据是人类认识海洋的主要途径。如图 1, 随着全球海洋立体“空-天-地-海-底”观测系统的不断发展(吴立新等, 2020),形成了面向海洋 的遥感图像、时空序列数值、仿真数据、文献资料、监控视音频等大规模多模态数据。根据 当前关于海洋数据量的研究,2014 年全球各种海洋数据总量约为 25PB,预计 2030 年全球 海洋数据总量将达到 275PB。这表明海洋多模态数据的存量已经接近 EB 级,日增量也达到 TB 级。其中,海洋遥感图像和时空序列数值是其主体,时空序列数值以矩阵形式呈现,通 常也作为图像对待。所以,对以图像为主的海洋多模态大数据的深入分析和挖掘,是认知海 洋动力过程、能量物质循环、蓝色生命演变,实现科学重大发现、生态环境健康、应对极端 天气和气候变化的关键途径,也是支撑人类社会可持续发展的重大战略需求。
和传统大数据相比,海洋多模态大数据具有超巨系统(占地表 71%面积,日增量 10TB)、 超多视角(“陆-海-气-冰-地”耦合、“水文气象声光电磁”多态)、超跨尺度(“厘米至百公里” 空间尺度,“微秒至年代际”时间尺度)等显著特征,导致现有的多模态智能计算技术难以应 对跨尺度多模态融合分析、多学科跨领域协同推理、大算力多架构兼容应用等难题。因此, 虽然我国对海观测能力日益强大,但海洋多模态大数据价值挖掘的智能化水平不足,迫切需 要针对其差异化特点,构建面向海洋的多模态智能计算理论体系和技术框架。目前,海洋多 模态智能计算领域的研究刚刚起步,尚未形成体系化和差异化研究方向,现阶段的工作大多 关注现有多模态数据挖掘技术在海洋场景下的应用优化,并未针对海洋领域数据的分布特点 开展深入研究。因此,本文通过梳理现阶段海洋领域面向多模态智能计算中的内容分析、融 合推理、智能计算等方面的现有工作,结合领域场景需求,提出海洋多模态智能计算的主要 研究内容、现有进展、关键问题和未来展望