Correctly parsing mathematical formulas from PDFs is critical for training large language models and building scientific knowledge bases from academic literature, yet existing benchmarks either exclude formulas entirely or lack semantically-aware evaluation metrics. We introduce a novel benchmarking framework centered on synthetically generated PDFs with precise LaTeX ground truth, enabling systematic control over layout, formulas, and content characteristics. A key methodological contribution is pioneering LLM-as-a-judge for semantic formula assessment, combined with a robust two-stage matching pipeline that handles parser output inconsistencies. Through human validation on 250 formula pairs (750 ratings from 30 evaluators), we demonstrate that LLM-based evaluation achieves substantially higher correlation with human judgment (Pearson r=0.78) compared to CDM (r=0.34) and text similarity (r~0). Evaluating 20+ contemporary PDF parsers (including specialized OCR models, vision-language models, and rule-based approaches) across 100 synthetic documents with 2,000+ formulas reveals significant performance disparities. Our findings provide crucial insights for practitioners selecting parsers for downstream applications and establish a robust, scalable methodology that enables reproducible evaluation of PDF formula extraction quality. Code and benchmark data: https://github.com/phorn1/pdf-parse-bench


翻译:从PDF中正确解析数学公式对于训练大型语言模型和从学术文献构建科学知识库至关重要,然而现有基准测试要么完全排除公式,要么缺乏语义感知的评估指标。我们引入了一种新颖的基准测试框架,该框架以具有精确LaTeX真实标签的合成生成PDF为中心,能够系统控制布局、公式和内容特征。一个关键的方法学贡献是开创性地将LLM作为语义公式评估的评判器,并结合一个稳健的两阶段匹配流程来处理解析器输出的不一致性。通过对250个公式对进行人工验证(来自30位评估者的750个评分),我们证明基于LLM的评估与人类判断的相关性显著更高(皮尔逊r=0.78),而CDM(r=0.34)和文本相似度(r~0)则较低。在包含2000多个公式的100份合成文档上评估20多个当代PDF解析器(包括专用OCR模型、视觉语言模型和基于规则的方法),揭示了显著的性能差异。我们的研究结果为从业者选择下游应用解析器提供了关键见解,并建立了一种稳健、可扩展的方法论,能够实现PDF公式提取质量的可重复评估。代码和基准数据:https://github.com/phorn1/pdf-parse-bench

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月18日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员