Occupational data play a vital role in research, official statistics, and policymaking, yet their collection and accurate classification remain a challenge. This study investigates the effects of occupational question wording on data variability and the performance of automatic coding tools. We conducted and replicated a split-ballot survey experiment in Germany using two common occupational question formats: one focusing on "job title" (Berufsbezeichnung) and another on "berufliche Tätigkeit" (loosely translated as occupation or occupational task). Our analysis reveals that automatic coding tools, such as CASCOT and OccuCoDe, exhibit sensitivity to the form and origin of the data. Specifically, these tools were more efficient when coding responses to the job title question format than the occupational task format, suggesting a potential way to improve the respective questions for many German surveys. In a subsequent "detailed tasks and duties" question, providing a guiding example prompted respondents to give longer answers without broadening the range of unique words they used. These findings highlight the importance of harmonising survey questions and and ensuring that automatic coding tools are robust to differences in question wording. Further research is needed to optimise question design and coding tools for greater accuracy and applicability in occupational data collection.


翻译:职业数据在研究、官方统计和政策制定中发挥着至关重要的作用,然而其收集与准确分类仍是一项挑战。本研究探讨了职业问题措辞对数据变异性和自动编码工具性能的影响。我们在德国进行并复现了一项分割样本调查实验,使用了两种常见的职业问题格式:一种侧重于“职位名称”(Berufsbezeichnung),另一种侧重于“berufliche Tätigkeit”(大致可译为职业或职业任务)。我们的分析表明,自动编码工具(如CASCOT和OccuCoDe)对数据的形式和来源表现出敏感性。具体而言,这些工具在编码针对职位名称格式问题的回答时,比编码针对职业任务格式问题的回答更高效,这为改进许多德国调查中的相应问题提供了一种潜在途径。在随后的“详细任务与职责”问题中,提供引导性示例促使受访者给出了更长的回答,但并未拓宽他们所使用的独特词汇范围。这些发现凸显了统一调查问题以及确保自动编码工具对问题措辞差异具有鲁棒性的重要性。未来需要进一步研究,以优化问题设计和编码工具,从而提高职业数据收集的准确性和适用性。

0
下载
关闭预览

相关内容

NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员