电子健康记录(EHR)采用的扩大为临床护理和研究中数据驱动算法的应用提供了更多机会。有效进行多机构EHR研究的主要瓶颈在于各系统之间数据的异质性,存在大量的编码,这些编码要么不存在,要么在不同机构中代表不同的临床概念。数据隐私的需求进一步限制了包含多机构患者层级数据的可行性,这些数据对于研究不同患者子群体之间的相似性和差异性是必要的。为了解决这些挑战,我们开发了GAME算法。经过7个机构和2种语言的测试和验证,GAME在多个层次上集成数据: (1) 在机构层面,通过知识图谱建立编码与现有知识来源之间的关系,为标准编码及其相互关系提供医学背景; (2) 在机构之间,利用语言模型确定机构特定编码与已建立标准编码之间的关系;(3) 使用图注意力网络量化编码之间关系的强度。通过迁移学习和联邦学习共同训练嵌入,旨在保护数据隐私。在本研究中,我们展示了GAME在选择相关特征作为AI驱动算法输入方面的适用性,适用于多种疾病,如心力衰竭、类风湿性关节炎。接着,我们突出了GAME统一的多机构EHR数据在阿尔茨海默病结果研究和精神健康障碍患者自杀风险研究中的应用,且无需在个别机构外分享患者层级数据。总之,GAME算法推动了多机构EHR研究的可行性,提供了一种方法用于在临床研究和护理中实现高维数据驱动算法所需的编码转换和统一。此外,我们展示了GAME嵌入中保留了识别和研究患者子群体所需的宝贵临床信息,为跨机构合作研究提供了一种替代方案,避免了将患者层级数据共享到机构外。