在2023年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。

尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。我们认为,好的评测方法应当具备开放性、动态性、科学性和权威性。

为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。

最近,2024年3月版《SuperBench大模型综合能力评测报告》正式发布。

评测共包含了14个海内外具有代表性的模型。其中,对于闭源模型,选取API和网页两种调用模式中得分较高的一种进行评测。

根据评测结果,可以得出以下几个主要结论:

● 整体来说,GPT-4系列模型Claude-3等国外模型在多个能力上依然处于领先地位国内头部大模型GLM-4文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小

● 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。

● 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。

https://cloud.tsinghua.edu.cn/f/47717c3407bb4d279e0c/

成为VIP会员查看完整内容
39

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
102页pdf! 《大模型合规白皮书》上海人工智能研究院发布
专知会员服务
107+阅读 · 2023年11月30日
国家首部《“东数西算”算力报告》发布,
专知会员服务
36+阅读 · 2023年11月15日
央行发布《人工智能算法金融应用评价规范》,28页pdf
专知会员服务
73+阅读 · 2021年5月2日
专知会员服务
74+阅读 · 2020年12月19日
「基于通信的多智能体强化学习」 进展综述
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
CCF发布2017-2018中国计算机科学技术发展报告
中国计算机学会
17+阅读 · 2018年11月7日
麻省理工发布2018年全球十大突破性技术
算法与数学之美
12+阅读 · 2018年9月13日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
清华发布《2018自然语言处理研究报告》
智能交通技术
15+阅读 · 2018年8月4日
《人工智能标准化白皮书(2018版)》发布|附下载
人工智能学家
17+阅读 · 2018年1月21日
安全牛发布《威胁情报市场指南》报告
安全牛
11+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年7月19日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关资讯
「基于通信的多智能体强化学习」 进展综述
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
CCF发布2017-2018中国计算机科学技术发展报告
中国计算机学会
17+阅读 · 2018年11月7日
麻省理工发布2018年全球十大突破性技术
算法与数学之美
12+阅读 · 2018年9月13日
孟小峰:机器学习与数据库技术融合
计算机研究与发展
14+阅读 · 2018年9月6日
清华发布《2018自然语言处理研究报告》
智能交通技术
15+阅读 · 2018年8月4日
《人工智能标准化白皮书(2018版)》发布|附下载
人工智能学家
17+阅读 · 2018年1月21日
安全牛发布《威胁情报市场指南》报告
安全牛
11+阅读 · 2017年7月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年7月19日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员