【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价,附180页slides

2022 年 10 月 20 日 专知

在本教程中,我们将介绍通过公共众包市场进行的数据标记,并介绍一些有效收集标记数据的关键技术,包括聚合、增量重标记和动态定价。

接下来是一个练习环节,参与者选择一个真实的标签收集任务,实验选择标签过程的设置,并在最大的众包市场之一上启动自己的标签收集项目。在教程期间,所有项目都在真正的Toloka人群上运行。当我们在等待群体表演者对参与者的项目进行注释时,我们提出了在高效聚合、增量重标签和动态定价方面的主要理论结果。我们还讨论了众包的优势和劣势,以及对现实任务的适用性,总结了我们5年来在众包方面的研究和行业专业知识。所有参与者都会收到关于他们项目的反馈和实用建议。

讲者:

目录内容:

引言 Part 0: Introduction

— The concept of crowdsourcing
— Crowdsourcing task examples
— Crowdsourcing platforms
— Yandex crowdsourcing experience


众包数据收集 Part I: Main components of data collection via crowdsourcing

— Decomposition for an effective pipeline
— Task instruction & interface: best practices
— Quality control techniques

Part II: Introduction to Toloka for requesters

— How Toloka works
— Types of tasks in Toloka
— Creating a project in Toloka

Part III: Brainstorming the pipeline

— Dataset and required labels
— Discussion: how to collect labels?
— Data labeling pipeline for implementation

Part IV: Practical Session

Participants:
— create
— configure
— run data labeling projects on real performers in real-time

Part V: Theory on efficient aggregation

— Aggregation models
— Incremental relabeling
— Dynamic pricing

Part VI: Practical Session

— Completing the label collection process

Part VII: Discussion of results and conclusions

— Project results
— Ideas for further work and research
— References to literature and other tutorials


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“C180” 就可以获取【SIGMOD2022教程】高效数据标签的众包实践:聚合、增量重标签和定价,附180页slides》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
0

相关内容

【KDD2022-教程】深度搜索相关性排名的实践,74页ppt
专知会员服务
22+阅读 · 2022年9月4日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
45+阅读 · 2022年7月10日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
115+阅读 · 2022年4月21日
专知会员服务
41+阅读 · 2020年12月18日
专知会员服务
38+阅读 · 2020年10月13日
【CIKM2021-Tutorial】图挖掘公平性,166页ppt
图与推荐
4+阅读 · 2021年11月7日
IJCAI2021 | 深度推荐系统教程 (附Slides)
机器学习与推荐算法
1+阅读 · 2021年8月25日
KDD2021 | 最新GNN官方教程
机器学习与推荐算法
2+阅读 · 2021年8月18日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员