Despite the growing availability of Electronic Health Record (EHR) data, researchers often face substantial barriers in effectively using these data for translational research due to their complexity, heterogeneity, and lack of standardized tools and documentation. To address this critical gap, we introduce PEHRT, a common pipeline for harmonizing EHR data for translational research. PEHRT is a comprehensive, ready-to-use resource that includes open-source code, visualization tools, and detailed documentation to streamline the process of preparing EHR data for analysis. The pipeline provides tools to harmonize structured and unstructured EHR data to standardized ontologies to ensure consistency across diverse coding systems. In the presence of unmapped or heterogeneous local codes, PEHRT further leverages representation learning and pre-trained language models to generate robust embeddings that capture semantic relationships across sites to mitigate heterogeneity and enable integrative downstream analyses. PEHRT also supports cross-institutional co-training through shared representations, allowing participating sites to collaboratively refine embeddings and enhance generalizability without sharing individual-level data. The framework is data model-agnostic and can be seamlessly deployed across diverse healthcare systems to produce interoperable, research-ready datasets. By lowering the technical barriers to EHR-based research, PEHRT empowers investigators to transform raw clinical data into reproducible, analysis-ready resources for discovery and innovation.


翻译:尽管电子健康记录(EHR)数据的可用性日益增长,但由于其复杂性、异质性以及缺乏标准化工具和文档,研究人员在有效利用这些数据进行转化研究时仍面临重大障碍。为填补这一关键空白,我们提出了PEHRT——一个用于协调转化研究EHR数据的通用流程。PEHRT是一个全面、即用的资源,包含开源代码、可视化工具和详细文档,可简化EHR数据准备分析的过程。该流程提供工具,将结构化和非结构化EHR数据协调至标准化本体,以确保跨不同编码系统的一致性。针对未映射或异构的本地代码,PEHRT进一步利用表示学习和预训练语言模型生成鲁棒的嵌入表示,以捕获跨机构的语义关系,从而缓解异质性并支持集成式下游分析。PEHRT还通过共享表示支持跨机构协同训练,允许参与机构在不共享个体级数据的情况下协作优化嵌入表示并提升泛化能力。该框架与数据模型无关,可无缝部署于多样化的医疗系统,以生成可互操作、适用于研究的数据集。通过降低基于EHR研究的技术门槛,PEHRT使研究人员能够将原始临床数据转化为可重复、即用于分析的资源,以推动科学发现与创新。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员