The LLM-as-a-judge paradigm enables flexible, user-defined evaluation, but its effectiveness is often limited by the scarcity of diverse, representative data for refining criteria. We present a tool that integrates synthetic data generation into the LLM-as-a-judge workflow, empowering users to create tailored and challenging test cases with configurable domains, personas, lengths, and desired outcomes, including borderline cases. The tool also supports AI-assisted inline editing of existing test cases. To enhance transparency and interpretability, it reveals the prompts and explanations behind each generation. In a user study (N=24), 83% of participants preferred the tool over manually creating or selecting test cases, as it allowed them to rapidly generate diverse synthetic data without additional workload. The generated synthetic data proved as effective as hand-crafted data for both refining evaluation criteria and aligning with human preferences. These findings highlight synthetic data as a promising alternative, particularly in contexts where efficiency and scalability are critical.


翻译:LLM作为评判者的范式支持灵活的用户自定义评估,但其效果常受限于用于优化评判标准的多样化、代表性数据的稀缺性。我们提出一种工具,将合成数据生成整合到LLM作为评判者的工作流中,使用户能够创建具有可配置领域、角色设定、文本长度及预期结果(包括临界案例)的定制化且具有挑战性的测试用例。该工具还支持对现有测试用例进行AI辅助的在线编辑。为增强透明度和可解释性,工具会揭示每次生成背后的提示词与解释机制。在一项用户研究(N=24)中,83%的参与者更倾向于使用该工具而非手动创建或选择测试用例,因为它能在不增加工作负荷的前提下快速生成多样化合成数据。实验证明,所生成的合成数据在优化评估标准及对齐人类偏好方面与人工构建的数据具有同等效力。这些发现凸显了合成数据作为高效替代方案的潜力,尤其在注重效率与可扩展性的应用场景中。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员