《深度强化学习》招聘汇总(13家企业)

2019 年 9 月 24 日 深度强化学习实验室
深度强化学习报道

编辑:DeepRL


本文汇总了13家企业关于强化学习招聘的信息,包含网易,头条,快手,华为诺亚等企业,有实习有工作(注:没有链接的自行查看官网或者搜索投递简历),同时根据招聘要求,提升对应能力。


网易(伏羲实验室004)

职位:强化学习研究员

本科及以上||经验不限||语言不限||20-50岁

地址:杭州


职位描述:

工作职责:
1. 在(深度)强化学习领域进行创新性研究,发表高质量论文或撰写专利;
2. 建模(深度)强化学习在游戏等产业落地时遇到的问题, 能够独立研究并解决;
3. 具有以下相关项目研究积累尤佳:
模仿学习:利用游戏玩家数据生成风格化各异的游戏AI角色;利用玩家数据学习出具有一定智能的游戏AI角色。(实际项目:玩家离线挂机AI, 多人副本测试AI, 线上对战AI等)
强化学习:利用游戏等仿真环境训练过强化学习AI智能体;能够生成难度可控的游戏AI角色;设计新的强化学习算法,提高强化学习效率和效果;(实际项目:难度可变的副本boss AI;强化学习自动化测试等)
多智能体:在竞争或合作的仿真环境训练过多智能体AI;设计新的多智能体算法, 提高多智能体算法的效果;(实际项目:篮球游戏AI, 多人副本游戏AI, 多人对战棋牌类游戏AI)
AutoML: 有神经网络自动调参相关的经验;利用进化算法解决过实际问题;(实际项目:网络结构自动调整项目,算法超参自动调整项目, 风格多样化AI生成项目 )


任职要求:
1. 有一定的游戏经历,热爱人工智能;
2. 计算机或相关专业硕士以上学历,保持对领域最前沿技术的追踪;
3. 能熟练使用主流深度学习框架,如tensorflow、mxnet、caffe、theano、keras等,具备实现常用的(深度)强化学习算法能力;
4. 在人工智能会议和期刊发表过优秀论文,有顶级会议期刊发表经历者优先(NIPS, IJCAI, AAAI, ICML, ICLR,AAMAS等);
5. 在以下(深度)强化学习领域有一定积累:
无模型学习(Model-Free RL):

Value-based Algorithm, Policy Gradients, Deterministic Policy Gradients, Distributional RL, Evolutionary Algorithms;
模仿学习(Imitation Learning and Inverse Reinforcement Learning): Behavior Clone, GAIL
多智能体学习(Multi-agent learning)
基于模型的学习(Model-Based RL): Model is Learned, Model is Given
Scaling RL(分布式强化学习):Ape-x, R2D2, IMPALA
探索(Exportation): Intrinsic Motivation, Unsupervised RL
迁移和多任务(Transfer and Multitask RL): Progressive Networks, UVFA, UNREAL, HER
分层(Hierarchy): STRAW, Feudal Networks, HIRO
Meta-RL(元学习)



今日头条

职位:强化学习研究员

硕士及以上||3年以上||普通话||年龄不限

地址:深圳-南山区


职位描述:

工作职责:
1、 负责强化学习前沿算法的创新研究与探索,发表顶会论文和申请专利;
2、探索不同类游戏的AI对弈算法,包括拟人化学习和强化学习框架搭建等。


任职要求:
1、数学、计算机、人工智能、自动控制、模式识别等相关专业,硕士及以上学历;
2、3年以上强化学习研究经验,对优化理论、多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑;
3、发表过期刊或会议论文,在ICML/ NIPS/ IJCAI/ AAAI/ ICLR/ ICRA等国际顶级会议上发表过学术论文者优先考虑;
4、熟练使用TensorFlow/ PyTorch等至少一种深度学习框架,熟练使用Python/ C++等至少一种编程语。


今日头条

职位:强化学习研究员 (职位编号:46326)

北京 | 3-4年经验 | 本科 | 招2人 | 09-24发布

地点:海淀北二街10号泰鹏大厦10层


职位描述:

负责强化学习的游戏AI应用场景商业化落地,包括特征提取、模型训练、强化学习框架开发、在线效果优化等,完成项目交付。


职位要求:
1、计算机、人工智能、自动控制、模式识别等相关专业硕士及以上学位;
2、具有1年以上强化学习研究经验,对多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑;
3、熟练使用TensorFlow/ PyTorch等至少一种深度学习框架,熟练使用Python/ C++等至少一种编程语。


华为-诺亚方舟实验室

职位:强化学习方向实习生

实习地点:深圳/北京

实习时间:不少于3个月


职位描述:

岗位要求:

机器学习、应用统计/数学、计算机、电子工程、自动化等相关方向在校硕士/博士,对主流强化学习算法有一定了解,熟练使用Tensorflow/Pytorch等,有实际应用经验或发表过相关论文者,并有意愿结合实际应用问题做研究者优先考虑。


有意向者请发简历至:

zhuangyuzheng@huawei.com


网易

职位:强化学习研究工程师

硕士及以上||经验不限||语言不限||年龄不限

广州-珠江新城


职位描述:

岗位描述
网易互娱AI实验室招募强化学习研究工程师,利用深度学习和强化学习学习游戏中的智能体。目标是实现AI算法在游戏中的落地,从而提高游戏策划制作效率、提升游戏中NPC角色智能化水平以及提升游戏玩家体验。

岗位要求
1. 计算机和机器学习等相关专业硕士及以上学历;
2. 在机器学习、深度学习和强化学习方向具有扎实的理论和实践基础,保持对领域最前沿技术的追踪;
3. 具有上述方向的工业界经历,有实际项目经验;
4. 熟练掌握一种常见的深度学习框架,譬如 TensorFlow/pytorch/MXNet/Caffe;
5. 喜欢游戏及其开发,了解游戏基本逻辑,对竞技类游戏、手游开发有经验者优先;
6. 在顶级会议(AAAI/IJCAI/ICML /NIPS等)或期刊有论文发表者优先;
7. 能够独立分析并解决问题


阿里巴巴(社招)

职位:自动驾驶实验室-行为决策方向-强化学习算法专家

地点:北京/杭州

岗位描述:

1、利用强化学习等机器学习方法优化自动驾驶行为决策算法;
2、对接自动驾驶仿真平台, 搭建基于迭代学习的自动驾驶行为决策优化工具平台;
3、对接自动驾驶实测数据, 挖掘最优行为决策逻辑, 优化自动驾驶系统的决策算法;
4、有机器人/无人驾驶相关强化学习或行为优化开发经验者优先。

岗位要求:

1、机器人、人工智能等相关专业
2、熟悉强化学习, 并有强化学习在实际自主系统中应用的项目经验
3、熟悉自动驾驶决策, 最优化交通行为决策等算法者优先
4、 有在Linux系统下开发经验
5、 多年的C++/Python的开发经验,1~3年的实际项目工作经验
6、 善于团队协作完成既定任务



VIVO

简介:vivo是一家专注连接产业生态,为追求科技与时尚的前端用户提供智慧终端产品和服务的科技公司,我们致力于整合产业创新能力,并拥有完善的自研自产体系,在中国东莞,深圳,南京,北京,杭州,上海,台北,美国圣地亚哥,日本东京设有研发中心,研发范围包括5G、人工智能、拍照、设计等众多消费级前沿领域。


职位:强化学习算法研究员


职位描述:

1. 根据项目需求,设计智能Agent;
2. 根据项目需求,设计策略算法


任职资格:
1. 硕士或以上学历,计算机、数学等相关专业;
2. 深度理解强化学习,模仿学习,有在实际项目中应用与优化过相关算法者优先;
3. 熟悉强化学习基本算法,使用过DQN,DDPG,GPS,TRPO等算法者优先
4. 精通C/C++、python编程,有一定的项目开发经验 ;
5. 具有较强的英文阅读能力,能够阅读英文论文和专利;
6. 具有良好的语言沟通能力,团队合作精神,上进心强,具有快速学习能力;
7. 具有论文、专利、竞赛成功的优先考虑。



美团点评

职位:无人配送-强化学习算法专家

博士||2年以上||普通话||年龄不限

地址:北京


职位描述:

工作职责 :
1. 融合感知信息、定位数据、地图信息,研发真实道路和交通条件下的无人车驾驶规划算法。
2. 研究前沿的深度学习和强化学习相关算法,提供开放复杂场景下的无人车决策规划解决方案。

任职要求:
1. 具有无人车驾驶规划或机器人规划工作经历。
2. 具有良好的编程基础,至少精通一门编程语言。
3. 具有抽象建模能力,能够根据实际问题合理建模,制定解决方案。
4. 熟悉常用的无人车规划算法。
5. 熟悉ROS等机器人操作系统。
6. 熟悉马尔科夫过程,概率图模型。
7. 熟悉强化学习和深度学习算法。

优先考虑:
1. 硕士或博士在自动化,车辆工程,机械工程,计算机,数学等专业。
2. 有无人车算法开发经验,熟悉无人车软件架构。
3. 有无人车相关比赛经历且取得优异成绩。
4. 在规划算法、深度学习或强化学习方法有深入研究,有落地经验或者发表过高水平论文。
5. 有扎实的数学基础,熟悉常用的优化算法。


北京快手科技有限公司

简介: 快手是一个记录和分享生活的短视频社交平台,公司自2011年创立,在过去8年时间里,稳步成长为众多用户的生活分享社区。快手坚持每个人都值得被记录,每个人都有被看到的权利和机会,致力于用技术提升每一个人独特的幸福感。


职位:推荐算法工程师-深度/强化学习算法

统招本科|| 1年以上|| 语言不限|| 年龄不限

地址:北京


职位描述:

工作职责
1. 跟踪机器学习领域前沿技术方向的最新进展,包括强化学习、迁移学习、深度学习等;
2. 将强化学习等机器学习领域前沿技术应用到快手推荐系统中,优化留存率等核心业务指标;
3. 系统框架的迭代和优化,提供可靠的线上服务。
任职资格
1. 机器学习、深度学习相关方向背景扎实,有实际应用经验;
2. 优秀的编程能力C++/Python, 熟悉常见的数据结构和算法;
3. 熟悉Linux开发环境和常用开发工具;熟悉至少一种常用深度学习框架Tensorflow/PyTorch/MxNet等;
4. 较强的文献阅读和理解能力,良好的逻辑思维、沟通表达能力,良好的技术视野和深度,对前沿技术的实际应用有浓厚兴趣
加分项:
1. 高质量技术博客/Github,或知名开源项目contributor;
2. 机器学习竞赛成绩优异者,如Kaggle/KDD等;或有ACM/NOI获奖经历;
3. 顶级会议论文发表者,如NIPS/ICML/IJCAI/CVPR/ACL/SIGKDD等;
4. 在强化学习、迁移学习等前沿领域,有较深入的研究经验;或在推荐系统/搜索排序系统/大型分布式系统 有较深入的工作经验。


深圳星行科技有限公司

简介:Roadstar.ai是一家主打L4自动驾驶的科技公司,选择以多传感器融合的方案切入自动驾驶,即通过算法+成本可控的传感器,进行L4级别自动驾驶的研发。


职位:强化学习算法工程师

学历不限|| 1年以上|| 语言不限|| 年龄不限

深圳-龙岗区


职位描述:

用强化学习方法优化物体追踪,预测性能

基本要求
1. 数理、工程类专业,本科及以上学历 
2. 熟悉强化学习和深度强化学习
3. 熟悉深度学习基本方法,熟练使用一种深度学习工具(Tensorflow/Pytorch/Caffe等) 
4. 熟悉基本算法与数据结构,熟练使用Python与C++

优先考虑
1. 相关领域(在读)硕士/博士,或等同的实践经验
2. 有自己的开源代码项目(Github)或在其他开源代码库有贡献
3. 在知名强化学习benchmark(Atari game, OpenAI Gym)取得优异成绩
4. 在人工智能/深度学习/机器人领域顶级会议或期刊发表文章
5. 来自知名大学且绩点排名靠前
6. 突出的编程能力(ACM等比赛获奖)



Testin云测

简介:Testin云测(www.testin.cn) 创立于2011年,作为先进的应用服务平台,为全球超过百万的开发者和企业提供测试、安全、推广、产品优化、流量变现,及AI大数据解决方案。

职位:强化学习工程师

地址:北京


职位描述:

1、参与公司核心项目策略模型的开发和集成,在生成对抗网络中应用各类强化学习策略模型生成App测试序列集;
2、配合并支持自动化测试执行团队;

岗位要求:
1、拥有计算机、数学或相关学科本科及以上学位;
2、熟悉各类主流深度学习算法,包括不限于强化学习(DQN、AC等)、GAN、深度学习(CNN、RNN等)、迁移学习等;
3、熟练掌握Tensorflow、Keras、pytorch等至少一种深度学习框架,熟练掌握Python、R或C++其中一门开发语言;
4、对前沿算法有强烈的兴趣,思辨能力强,沟通协作意识好,责任心及结果导向意识强,自驱力强;
5、加分项:在无人驾驶、机器人控制、游戏AI、或其他强化学习相关场景2年以上算法工程经验;


超参数科技(深圳)有限公司

简介:超参数科技是一家专注于游戏AI探索的初创公司,主攻机器学习、强化学习、大系统工程等技术领域,通过将AI能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案(https://chaocanshu.cn/)


职位:强化学习高级研究员

博士||3年以上||语言不限||年龄不限

深圳-南山区


职位描述:

职责描述:
• 负责强化学习前沿算法的创新研究与探索,发表顶会论文和申请专利;
• 针对游戏AI的应用场景,提供算法和解决方案。

任职要求:
• 计算机、人工智能、自动控制、模式识别等相关专业的博士;
• 具有3年以上强化学习研究经验,对多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑;
• 发表过期刊或会议论文,在ICML/NIPS/IJCAI/AAAI/ICLR/ICRA等国际顶级会议上发表过学术论文者优先考虑;
• 熟练使用TensorFlow/PyTorch等至少一种深度学习框架,熟练使用Python/C++等至少一种编程语言。


北京初速度科技有限公司

职位:强化学习工程师

学历不限||经验不限||语言不限||年龄不限

地址:苏州-元和


职位描述

1. 利用强化学习,深度学习实现一些场景下的决策算法。
2. 搭建决策系统所需要的虚拟环境。
3. 实现交通管理决策系统和算法,并与系统团队深度合作,确保系统的运行决策过程高效、合理。
岗位要求:
1. 3年以上机器学习经验,熟悉机器学习/强化学习算法,对神经网络有较深刻的理解尤佳。
2. 扎实的编程功底,熟练掌握至少一种常见的深度学习框架,如 TensorFlow/Keras, Caffe, Mxnet,熟练掌握C/C++,JAVA,Python,golang中的一种或多种语言。
3. 在强化学习方向具有扎实的理论基础和相关项目或课题经验
4. 较强的独立工作能力,有责任心,较强的问题分析和解决能力、团队沟通和合作能力
5. 有cityflow ,sumo等交通模拟器实践经验的优先,有搭建虚拟环境训练强化学习算法经验的优先。



下一篇将发出《DRL面试题目汇总

敬请期待!



深度强化学习实验室

算法、框架、资料、前沿信息等


GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request

往期精彩回顾

第1篇:解决强化学习反馈稀疏问题之HER方法原理及代码实现

第2篇:"DeepRacer" ——顶级深度强化学习挑战赛

第3篇: AI领域:如何做优秀研究并写高水平论文?
第4篇: DeepMind默默开源三大新框架,深度强化学习落地希望再现!
第5篇: 【重磅】61篇NIPS2019深度强化学习论文及部分解读
第6篇: 深度强化学习框架-OpenSpiel(DeepMind开源28种DRL环境+24种DRL算法实现)
第7篇: 基于模块化和快速原型设计的Huskarl深度强化学习框架
第8篇: DRL在Unity自行车环境中配置与实践
第9篇: 解读72篇DeepMind深度强化学习论文
第10篇: 《AutoML》:一份自动化调参的指导
第11篇: ReinforceJS库(动态展示DP、TD、DQN算法运行过程)
第12篇: 过去10年NIPS顶会强化学习论文(100多篇)汇总(2008-2018年)
第13篇: ICML2019-深度强化学习文章汇总
第14篇: DRL在阿里巴巴推荐系统的应用---《深度强化学习在阿里巴巴的技术演进与业务创新》
第15篇: 深度强化学习十大原则
第16篇: “超参数”与“网络结构”自动化设置方法---DeepHyper
第17篇: 深度强化学习的加速方法
第18篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析
登录查看更多
1

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
专知会员服务
198+阅读 · 2019年8月30日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
博客 | 深度强化学习 -- 实习岗位及企业汇总
AI研习社
4+阅读 · 2019年6月22日
招聘 | 深度强化学习研究员/工程师
七月在线实验室
7+阅读 · 2017年12月27日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
135+阅读 · 2018年10月8日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
9+阅读 · 2018年4月20日
VIP会员
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【强化学习】深度强化学习初学者指南
专知会员服务
178+阅读 · 2019年12月14日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
专知会员服务
198+阅读 · 2019年8月30日
相关论文
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
135+阅读 · 2018年10月8日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
9+阅读 · 2018年4月20日
Top
微信扫码咨询专知VIP会员