In this paper, we report the results of the TeamNRC's participation in the BHASHA-Task 1 Grammatical Error Correction shared task https://github.com/BHASHA-Workshop/IndicGEC2025/ for 5 Indian languages. Our approach, focusing on zero/few-shot prompting of language models of varying sizes (4B to large proprietary models) achieved a Rank 4 in Telugu and Rank 2 in Hindi with GLEU scores of 83.78 and 84.31 respectively. In this paper, we extend the experiments to the other three languages of the shared task - Tamil, Malayalam and Bangla, and take a closer look at the data quality and evaluation metric used. Our results primarily highlight the potential of small language models, and summarize the concerns related to creating good quality datasets and appropriate metrics for this task that are suitable for Indian language scripts.


翻译:本文报告了TeamNRC团队在BHASHA-Task 1语法错误校正共享任务(https://github.com/BHASHA-Workshop/IndicGEC2025/)中针对5种印度语言的研究结果。我们采用的方法侧重于对不同规模(4B至大型专有模型)语言模型进行零样本/少样本提示,在泰卢固语和印地语中分别以83.78和84.31的GLEU分数获得第4名和第2名。本文进一步将该实验扩展至共享任务的另外三种语言——泰米尔语、马拉雅拉姆语和孟加拉语,并对数据质量和所用评估指标进行了深入分析。我们的结果主要凸显了小规模语言模型的潜力,并总结了与此任务中适用于印度语言文字的高质量数据集构建及恰当评估指标相关的关键问题。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 11月7日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员