Data science plays a critical role in transforming complex data into actionable insights across numerous domains. Recent developments in large language models (LLMs) have significantly automated data science workflows, but a fundamental question persists: Can these agentic AI systems truly match the performance of human data scientists who routinely leverage domain-specific knowledge? We explore this question by designing a prediction task where a crucial latent variable is hidden in relevant image data instead of tabular features. As a result, agentic AI that generates generic codes for modeling tabular data cannot perform well, while human experts could identify the important hidden variable using domain knowledge. We demonstrate this idea with a synthetic dataset for property insurance. Our experiments show that agentic AI that relies on generic analytics workflow falls short of methods that use domain-specific insights. This highlights a key limitation of the current agentic AI for data science and underscores the need for future research to develop agentic AI systems that can better recognize and incorporate domain knowledge.


翻译:数据科学在将复杂数据转化为跨众多领域的可操作见解方面发挥着关键作用。大型语言模型(LLM)的最新发展已显著自动化了数据科学工作流程,但一个根本问题依然存在:这些自主AI系统能否真正媲美那些常规利用领域特定知识的人类数据科学家?我们通过设计一个预测任务来探讨这个问题,其中关键的潜变量隐藏在相关的图像数据中,而非表格特征中。因此,生成用于表格数据建模的通用代码的自主AI无法表现良好,而人类专家可以利用领域知识识别出重要的隐藏变量。我们通过一个财产保险的合成数据集来验证这一观点。我们的实验表明,依赖通用分析工作流程的自主AI表现不及利用领域特定见解的方法。这突显了当前用于数据科学的自主AI的一个关键局限,并强调了未来研究需要开发能够更好识别和整合领域知识的自主AI系统。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
必读!生成对抗网络GAN论文TOP 10
GAN生成式对抗网络
58+阅读 · 2019年3月20日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Arxiv
0+阅读 · 12月23日
VIP会员
相关资讯
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
必读!生成对抗网络GAN论文TOP 10
GAN生成式对抗网络
58+阅读 · 2019年3月20日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员