The paper describes a transformer-based system designed for SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysis. The purpose of the task was to predict the intimacy of tweets in a range from 1 (not intimate at all) to 5 (very intimate). The official training set for the competition consisted of tweets in six languages (English, Spanish, Italian, Portuguese, French, and Chinese). The test set included the given six languages as well as external data with four languages not presented in the training set (Hindi, Arabic, Dutch, and Korean). We presented a solution based on an ensemble of XLM-T, a multilingual RoBERTa model adapted to the Twitter domain. To improve the performance of unseen languages, each tweet was supplemented by its English translation. We explored the effectiveness of translated data for the languages seen in fine-tuning compared to unseen languages and estimated strategies for using translated data in transformer-based models. Our solution ranked 4th on the leaderboard while achieving an overall Pearson's r of 0.599 over the test set. The proposed system improves up to 0.088 Pearson's r over a score averaged across all 45 submissions.


翻译:机翻论文摘要: 本文描述了一个基于Transformer的系统,旨在为SemEval-2023任务9:多语言推文亲密度分析设计。任务的目的是预测范围从1(根本没有亲密感)到5(非常亲密)的推文亲密感。比赛的官方训练集包括六种语言(英语、西班牙语、意大利语、葡萄牙语、法语和中文)的推文。测试集包括给定的六种语言以及四种不在训练集中出现的外部数据(印地语、阿拉伯语、荷兰语和韩语)。我们提出了一种基于XLM-T的解决方案,即适应于Twitter领域的多语言RoBERTa模型的集成学习。为了提高未见语言的性能,每个推文都附有其英文翻译。我们探讨了与翻译数据在fine-tuning中的无翻译数据相比,用于转换器模型的翻译数据的有效性,并估计了使用转换器模型中翻译数据的策略。我们的解决方案在排行榜上排名第四,在测试集上实现了总体皮尔森相关系数0.599的结果。该提议的系统比45个提交平均得分提高了0.088的皮尔森相关系数。

0
下载
关闭预览

相关内容

NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
48+阅读 · 2022年10月2日
自然语言处理顶会NAACL2022最佳论文出炉!
专知会员服务
41+阅读 · 2022年6月30日
专知会员服务
123+阅读 · 2020年9月8日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
基于LSTM-CNN组合模型的Twitter情感分析(附代码)
机器学习研究会
50+阅读 · 2018年2月21日
【数据集】新的YELP数据集官方下载
机器学习研究会
16+阅读 · 2017年8月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员