Multilingual e-commerce search is challenging due to linguistic diversity and the noise inherent in user-generated queries. This paper documents the solution employed by our team (EAR-MP) for the CIKM 2025 AnalytiCup, which addresses two core tasks: Query-Category (QC) relevance and Query-Item (QI) relevance. Our approach first normalizes the multilingual dataset by translating all text into English, then mitigates noise through extensive data cleaning and normalization. For model training, we build on DeBERTa-v3-large and improve performance with label smoothing, self-distillation, and dropout. In addition, we introduce task-specific upgrades, including hierarchical token injection for QC and a hybrid scoring mechanism for QI. Under constrained compute, our method achieves competitive results, attaining an F1 score of 0.8796 on QC and 0.8744 on QI. These findings underscore the importance of systematic data preprocessing and tailored training strategies for building robust, resource-efficient multilingual relevance systems.


翻译:多语言电子商务搜索面临语言多样性和用户生成查询中固有噪声的挑战。本文记录了我们团队(EAR-MP)为CIKM 2025 AnalytiCup提出的解决方案,该方案针对两个核心任务:查询-类别(QC)相关性和查询-商品(QI)相关性。我们的方法首先通过将所有文本翻译成英语来规范化多语言数据集,然后通过广泛的数据清洗和归一化来降低噪声。在模型训练方面,我们基于DeBERTa-v3-large进行构建,并通过标签平滑、自蒸馏和dropout技术提升性能。此外,我们引入了任务特定的改进,包括针对QC的层次化标记注入和针对QI的混合评分机制。在有限的计算资源下,我们的方法取得了具有竞争力的结果,在QC任务上获得0.8796的F1分数,在QI任务上获得0.8744的F1分数。这些发现强调了系统化数据预处理和定制化训练策略对于构建鲁棒且资源高效的多语言相关性系统的重要性。

0
下载
关闭预览

相关内容

信息和知识管理会议(CIKM)为介绍和讨论信息和知识管理的研究以及数据和知识库方面的最新进展提供了一个国际论坛。会议的目的是确定未来知识和信息系统发展所面临的具有挑战性的问题,并通过征求和审查高质量的、应用的和理论的研究成果来确定未来的研究方向。会议的一个重要部分是讲习班计划,它侧重于及时的研究挑战和倡议。 官网地址:http://dblp.uni-trier.de/db/conf/cikm/
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员