This study provides an empirical assessment of whether current large language models (LLMs) can pass the official qualifying examination for membership in Poland's National Appeal Chamber (Krajowa Izba Odwo{\l}awcza). The authors examine two related ideas: using LLM as actual exam candidates and applying the 'LLM-as-a-judge' approach, in which model-generated answers are automatically evaluated by other models. The paper describes the structure of the exam, which includes a multiple-choice knowledge test on public procurement law and a written judgment, and presents the hybrid information recovery and extraction pipeline built to support the models. Several LLMs (including GPT-4.1, Claude 4 Sonnet and Bielik-11B-v2.6) were tested in closed-book and various Retrieval-Augmented Generation settings. The results show that although the models achieved satisfactory scores in the knowledge test, none met the passing threshold in the practical written part, and the evaluations of the 'LLM-as-a-judge' often diverged from the judgments of the official examining committee. The authors highlight key limitations: susceptibility to hallucinations, incorrect citation of legal provisions, weaknesses in logical argumentation, and the need for close collaboration between legal experts and technical teams. The findings indicate that, despite rapid technological progress, current LLMs cannot yet replace human judges or independent examiners in Polish public procurement adjudication.


翻译:本研究实证评估了当前大型语言模型(LLMs)能否通过波兰国家上诉委员会(Krajowa Izba Odwoławcza)成员资格官方资格考试。作者探讨了两个相关理念:将LLM作为实际考生使用,以及应用‘LLM作为评判者’方法,即由其他模型自动评估模型生成的答案。论文描述了考试结构,包括关于公共采购法的多项选择知识测试和书面判决撰写,并介绍了为支持模型而构建的混合信息检索与提取流程。测试了多种LLM(包括GPT-4.1、Claude 4 Sonnet和Bielik-11B-v2.6)在闭卷及不同检索增强生成设置下的表现。结果表明,尽管模型在知识测试中取得了令人满意的分数,但在实践书面部分均未达到通过阈值,且‘LLM作为评判者’的评估结果常与官方考试委员会的评判存在分歧。作者强调了关键局限性:易产生幻觉、法律条款引用错误、逻辑论证薄弱,以及需要法律专家与技术团队的密切协作。研究结果表明,尽管技术快速发展,当前LLMs尚无法在波兰公共采购裁决中替代人类法官或独立考官。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2月11日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月9日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员