Understanding the limitations of Large Language Models, or LLMs, in mathematical reasoning has been the focus of several recent studies. However, the majority of these studies use the same datasets for benchmarking, which limits the generalizability of their findings and may not fully capture the diverse challenges present in mathematical tasks. The purpose of the present study is to analyze the performance of LLMs on underrepresented mathematics competition problems. We prompted three leading LLMs, namely GPT-4o-mini, Gemini-2.0-Flash, and DeepSeek-V3, with the Missouri Collegiate Mathematics Competition problems in the areas of Calculus, Analytic Geometry, and Discrete Mathematics. The LLMs responses were then compared to the known correct solutions in order to determine the accuracy of the LLM for each problem domain. We also analyzed the LLMs reasoning to explore patterns in errors across problem types and models. DeepSeek-V3 has the best performance in all three categories of Calculus, Analytic Geometry, and Discrete Mathematics, both in reasoning and correct final answers. All three LLMs exhibited notably weak performance in Geometry. The majority of errors made by DeepSeek-V3 were attributed to computational and logical mistakes, whereas GPT-4o-mini frequently exhibited logical and approach-related errors. Gemini, on the other hand, tended to struggle with incomplete reasoning and drawing rushed conclusions. In conclusion, evaluating LLMs on underrepresented mathematics competition datasets can provide deeper insights into their distinct error patterns and highlight ongoing challenges in structured reasoning, particularly within the domain of Geometry.


翻译:理解大型语言模型(LLMs)在数学推理方面的局限性已成为近期多项研究的焦点。然而,这些研究大多使用相同的数据集进行基准测试,这限制了其研究结论的普适性,且可能无法全面捕捉数学任务中存在的多样化挑战。本研究旨在分析LLMs在代表性不足的数学竞赛问题上的表现。我们使用密苏里大学数学竞赛(Missouri Collegiate Mathematics Competition)中微积分、解析几何和离散数学领域的问题,对三种领先的LLMs——GPT-4o-mini、Gemini-2.0-Flash和DeepSeek-V3——进行了测试。通过将LLMs的响应与已知正确答案进行比较,我们确定了每种模型在各个问题领域的准确率。我们还分析了LLMs的推理过程,以探究不同问题类型和模型间的错误模式。DeepSeek-V3在微积分、解析几何和离散数学三个类别中,无论是推理过程还是最终答案的正确性方面均表现最佳。所有三种LLMs在几何问题上均表现出明显较弱的能力。DeepSeek-V3的大部分错误可归因于计算和逻辑失误,而GPT-4o-mini则频繁出现逻辑和方法相关的错误。另一方面,Gemini往往在推理不完整和草率得出结论方面存在困难。总之,在代表性不足的数学竞赛数据集上评估LLMs,能够更深入地揭示其独特的错误模式,并突显出在结构化推理——尤其是在几何领域——方面持续存在的挑战。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
大型语言模型推理增强外部知识:综述
专知会员服务
36+阅读 · 2025年6月2日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员