空间转录组学(Spatial Transcriptomics, ST)技术通过保留细胞的空间上下文,为生物学家提供了关于单细胞生物学的丰富洞察。构建用于 ST 的基础模型可以显著提升对庞大且复杂的数据源的分析能力,从而揭示生物组织复杂性的全新视角。然而,ST 数据建模本身具有挑战性,因为它要求从包含大量细胞的组织切片中提取多尺度信息。这一过程需要整合宏观尺度的组织形态结构、微观尺度的细胞微环境以及基因尺度的基因表达谱。
为应对这一挑战,我们提出了 SToFM,一种多尺度空间转录组学基础模型。SToFM 首先对每个 ST 切片进行多尺度信息提取,构建出一组整合了宏观、微观和基因尺度信息的 ST 子切片。随后,我们采用 SE(2) Transformer 从这些子切片中获取高质量的细胞表征。此外,我们还构建了 SToCorpus-88M,这是目前最大的用于预训练的高分辨率空间转录组学语料库。 SToFM 在多种下游任务中表现优异,例如组织区域语义分割和细胞类型注释,展示了其通过捕捉与融合多尺度信息而获得的对 ST 数据的全面理解能力。