LLM-based web agents have the potential to automate long-running web tasks, such as searching for products in multiple e-shops and subsequently ordering the cheapest products that meet the users needs. Benchmarks for evaluating web agents either require agents to perform tasks online using the live Web or offline using simulated environments, which allow for the exact reproduction of the experimental setup. While DeepShop provides an online benchmark that requires agents to perform challenging shopping tasks, existing offline benchmarks such as WebShop, WebArena, or Mind2Web cover only comparatively simple e-commerce tasks that need to be performed against a single shop containing product data from a single source. What is missing is an e-commerce benchmark that simulates multiple shops containing heterogeneous product data and requires agents to perform complex tasks. We fill this gap by introducing WebMall, the first offline multi-shop benchmark for evaluating web agents on challenging comparison shopping tasks. WebMall consists of four simulated shops populated with product data extracted from the Common Crawl. The WebMall tasks range from specific product searches and price comparisons to advanced queries for complementary or substitute products, as well as checkout processes. We validate WebMall using eight agents that differ in observation space, availability of short-term memory, and the employed LLM. The validation highlights the difficulty of the benchmark, with even the best-performing agents achieving task completion rates below 55% in the task categories cheapest product search and vague product search.


翻译:基于大语言模型(LLM)的网络智能体有望自动化执行长期运行的网络任务,例如在多个电子商店中搜索产品,并随后订购满足用户需求的最便宜产品。评估网络智能体的基准测试要么要求智能体在线使用实时网络执行任务,要么离线使用模拟环境执行任务,后者允许精确复现实验设置。尽管DeepShop提供了一个要求智能体执行具有挑战性的购物任务的在线基准测试,但现有的离线基准测试(如WebShop、WebArena或Mind2Web)仅涵盖相对简单的电子商务任务,这些任务需要针对包含单一来源产品数据的单一商店执行。目前缺少的是一个模拟包含异构产品数据的多个商店、并要求智能体执行复杂任务的电子商务基准测试。我们通过引入WebMall来填补这一空白,这是首个用于评估网络智能体在具有挑战性的比价购物任务上的离线多店铺基准测试。WebMall由四个模拟商店组成,这些商店填充了从Common Crawl中提取的产品数据。WebMall的任务范围从特定产品搜索和价格比较,到针对互补或替代产品的高级查询,以及结账流程。我们使用八个在观察空间、短期记忆可用性以及所采用的大语言模型方面各不相同的智能体来验证WebMall。验证结果突显了该基准测试的难度,即使在“最便宜产品搜索”和“模糊产品搜索”这两个任务类别中,表现最佳的智能体的任务完成率也低于55%。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员