Speech processing and translation technology have the potential to facilitate meetings of individuals who do not share any common language. To evaluate automatic systems for such a task, a versatile and realistic evaluation corpus is needed. Therefore, we create and present a corpus of cross-lingual dialogues between individuals without a common language who were facilitated by automatic simultaneous speech translation. The corpus consists of 5 hours of speech recordings with ASR and gold transcripts in 12 original languages and automatic and corrected translations into English. For the purposes of research into cross-lingual summarization, our corpus also includes written summaries (minutes) of the meetings. Moreover, we propose automatic detection of misunderstandings. For an overview of this task and its complexity, we attempt to quantify misunderstandings in cross-lingual meetings. We annotate misunderstandings manually and also test the ability of current large language models to detect them automatically. The results show that the Gemini model is able to identify text spans with misunderstandings with recall of 77% and precision of 47%.


翻译:语音处理与翻译技术有望为无共同语言的个体间会议提供便利。为评估此类任务的自动化系统,需要构建一个多功能且真实的评估语料库。为此,我们创建并提出了一个跨语言对话语料库,该语料库收录了在自动同步语音翻译辅助下、无共同语言个体间的对话内容。语料库包含5小时的语音录音,配有自动语音识别结果及12种源语言的原始文本,以及自动生成与人工修正的英文翻译文本。为支持跨语言摘要研究,本语料库还收录了会议的书面摘要(纪要)。此外,我们提出了自动检测误解的方法。为阐明该任务的概况及其复杂性,我们尝试对跨语言会议中的误解现象进行量化分析。我们通过人工标注误解实例,并测试了当前大语言模型自动检测误解的能力。结果表明,Gemini模型能够以77%的召回率和47%的精确度识别包含误解的文本片段。

0
下载
关闭预览

相关内容

【李飞飞等NeurIPS2024论文】HourVideo:1小时视频-语言理解
专知会员服务
30+阅读 · 2024年11月10日
【ECCV2024】开放世界动态提示与持续视觉表征学习
专知会员服务
25+阅读 · 2024年9月10日
大型语言模型供应链
专知会员服务
45+阅读 · 2024年4月29日
专知会员服务
37+阅读 · 2020年9月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【李飞飞等NeurIPS2024论文】HourVideo:1小时视频-语言理解
专知会员服务
30+阅读 · 2024年11月10日
【ECCV2024】开放世界动态提示与持续视觉表征学习
专知会员服务
25+阅读 · 2024年9月10日
大型语言模型供应链
专知会员服务
45+阅读 · 2024年4月29日
专知会员服务
37+阅读 · 2020年9月25日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员