Large language models (LLMs) excel at many general-purpose natural language processing tasks. However, their ability to perform deep reasoning and mathematical analysis, particularly for complex tasks as required in cryptography, remains poorly understood, largely due to the lack of suitable data for evaluation and training. To address this gap, we present CryptoQA, the first large-scale question-answering (QA) dataset specifically designed for cryptography. CryptoQA contains over two million QA pairs drawn from curated academic sources, along with contextual metadata that can be used to test the cryptographic capabilities of LLMs and to train new LLMs on cryptographic tasks. We benchmark 15 state-of-the-art LLMs on CryptoQA, evaluating their factual accuracy, mathematical reasoning, consistency, referencing, backward reasoning, and robustness to adversarial samples. In addition to quantitative metrics, we provide expert reviews that qualitatively assess model outputs and establish a gold-standard baseline. Our results reveal significant performance deficits of LLMs, particularly on tasks that require formal reasoning and precise mathematical knowledge. This shows the urgent need for LLM assistants tailored to cryptography research and development. We demonstrate that, by using CryptoQA, LLMs can be fine-tuned to exhibit better performance on cryptographic tasks.


翻译:大语言模型(LLMs)在众多通用自然语言处理任务中表现出色。然而,其在深度推理与数学分析方面的能力,尤其是密码学所需的复杂任务上,仍鲜为人知,这主要归因于缺乏合适的评估与训练数据。为填补这一空白,我们提出了CryptoQA,这是首个专为密码学设计的大规模问答(QA)数据集。CryptoQA包含超过两百万对从精选学术资源中提取的问答对,并附有上下文元数据,可用于测试LLMs的密码学能力,并训练新LLMs执行密码学任务。我们在CryptoQA上对15个最先进的LLMs进行了基准测试,评估了它们的事实准确性、数学推理能力、一致性、引用能力、逆向推理能力以及对对抗样本的鲁棒性。除量化指标外,我们还提供了专家评审,对模型输出进行定性评估,并建立了黄金标准基线。我们的结果揭示了LLMs在需要形式化推理和精确数学知识的任务上存在显著的性能缺陷,这表明迫切需要为密码学研究和开发定制专门的LLM助手。我们证明,通过使用CryptoQA进行微调,LLMs在密码学任务上能够展现出更好的性能。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员