ChatGPT is a groundbreaking ``chatbot"--an AI interface built on a large language model that was trained on an enormous corpus of human text to emulate human conversation. Beyond its ability to converse in a plausible way, it has attracted attention for its ability to competently answer questions from the bar exam and from MBA coursework, and to provide useful assistance in writing computer code. These apparent abilities have prompted discussion of ChatGPT as both a threat to the integrity of higher education and conversely as a powerful teaching tool. In this work we present a preliminary analysis of how two versions of ChatGPT (ChatGPT3.5 and ChatGPT4) fare in the field of first-semester university physics, using a modified version of the Force Concept Inventory (FCI) to assess whether it can give correct responses to conceptual physics questions about kinematics and Newtonian dynamics. We demonstrate that, by some measures, ChatGPT3.5 can match or exceed the median performance of a university student who has completed one semester of college physics, though its performance is notably uneven and the results are nuanced. By these same measures, we find that ChatGPT4's performance is approaching the point of being indistinguishable from that of an expert physicist when it comes to introductory mechanics topics. After the completion of our work we became aware of Ref [1], which preceded us to publication and which completes an extensive analysis of the abilities of ChatGPT3.5 in a physics class, including a different modified version of the FCI. We view this work as confirming that portion of their results, and extending the analysis to ChatGPT4, which shows rapid and notable improvement in most, but not all respects.


翻译:ChatGPT是一款开创性的“聊天机器人”,是基于大型语言模型构建的AI接口,该模型通过对人类文本的大量训练可以模拟人类对话。除了它可以以一种合理的方式对话之外,它还因其能够在法律和MBA课程的问题中提供有用的答案和在编写计算机代码方面提供有用的帮助而受到关注。这些显著的能力引发了对ChatGPT作为高等教育完整性的威胁和作为强大教学工具的讨论。在这项工作中,我们提出了ChatGPT的两个版本(ChatGPT3.5和ChatGPT4)在第一学期大学物理学中表现如何,使用修改版的力概念库(FCI)来评估是否能够正确回答有关运动学和牛顿动力学的概念物理问题。我们证明,从某些方面来看,ChatGPT3.5可以匹配或超过完成一学期的大学物理课程的学生的中位数表现,尽管其表现明显不均衡,结果也是微妙的。通过这些同样的措施,我们发现ChatGPT4的表现接近于初学力学主题的物理专家,已经达到了无法区分的程度。在我们完成工作之后,我们注意到Ref [1],它在我们之前发表了广泛的分析结果,包括FCI的不同修改版本在物理课程中评估ChatGPT3.5的能力。我们认为这项工作确认了他们成果的一部分,并将分析扩展到ChatGPT4,显示出在大多数方面的快速和显著改进,但并非所有方面。

0
下载
关闭预览

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
揭秘ChatGPT情感对话能力
专知会员服务
56+阅读 · 2023年4月9日
【2022新书】深度学习R语言实战,第二版,568页pdf
专知会员服务
82+阅读 · 2022年10月23日
【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
专知会员服务
75+阅读 · 2021年10月19日
【实用书】强化学习实战:Python,110页pdf
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员