《深度强化学习》招聘汇总(13家企业）

会员服务 ·

《深度强化学习》招聘汇总(13家企业）

2019 年 9 月 24 日 深度强化学习实验室

深度强化学习报道

编辑：DeepRL

本文汇总了13家企业关于强化学习招聘的信息，包含网易，头条，快手，华为诺亚等企业，有实习有工作（注：没有链接的自行查看官网或者搜索投递简历）,同时根据招聘要求，提升对应能力。

网易(伏羲实验室004)

职位：强化学习研究员

本科及以上||经验不限||语言不限||20-50岁

地址：杭州

职位描述：

工作职责：
1. 在（深度）强化学习领域进行创新性研究，发表高质量论文或撰写专利；
2. 建模（深度）强化学习在游戏等产业落地时遇到的问题，能够独立研究并解决；
3. 具有以下相关项目研究积累尤佳：
模仿学习：利用游戏玩家数据生成风格化各异的游戏AI角色；利用玩家数据学习出具有一定智能的游戏AI角色。（实际项目：玩家离线挂机AI，多人副本测试AI, 线上对战AI等）
强化学习：利用游戏等仿真环境训练过强化学习AI智能体；能够生成难度可控的游戏AI角色；设计新的强化学习算法，提高强化学习效率和效果；（实际项目：难度可变的副本boss AI；强化学习自动化测试等）
多智能体：在竞争或合作的仿真环境训练过多智能体AI；设计新的多智能体算法，提高多智能体算法的效果；（实际项目：篮球游戏AI，多人副本游戏AI，多人对战棋牌类游戏AI）
AutoML: 有神经网络自动调参相关的经验；利用进化算法解决过实际问题；（实际项目：网络结构自动调整项目，算法超参自动调整项目，风格多样化AI生成项目）

任职要求：
1. 有一定的游戏经历，热爱人工智能；
2. 计算机或相关专业硕士以上学历，保持对领域最前沿技术的追踪；
3. 能熟练使用主流深度学习框架，如tensorflow、mxnet、caffe、theano、keras等，具备实现常用的（深度）强化学习算法能力；
4. 在人工智能会议和期刊发表过优秀论文，有顶级会议期刊发表经历者优先（NIPS, IJCAI, AAAI, ICML, ICLR，AAMAS等）；
5. 在以下（深度）强化学习领域有一定积累：
无模型学习（Model-Free RL）:

Value-based Algorithm, Policy Gradients, Deterministic Policy Gradients, Distributional RL, Evolutionary Algorithms;
模仿学习（Imitation Learning and Inverse Reinforcement Learning）: Behavior Clone, GAIL
多智能体学习（Multi-agent learning）
基于模型的学习(Model-Based RL): Model is Learned, Model is Given
Scaling RL（分布式强化学习）：Ape-x, R2D2, IMPALA
探索（Exportation）: Intrinsic Motivation, Unsupervised RL
迁移和多任务（Transfer and Multitask RL）: Progressive Networks, UVFA, UNREAL, HER
分层（Hierarchy）: STRAW， Feudal Networks， HIRO
Meta-RL（元学习）

今日头条

职位：强化学习研究员

硕士及以上||3年以上||普通话||年龄不限

地址：深圳-南山区

职位描述：

工作职责：
1、负责强化学习前沿算法的创新研究与探索，发表顶会论文和申请专利；
2、探索不同类游戏的AI对弈算法，包括拟人化学习和强化学习框架搭建等。

任职要求：
1、数学、计算机、人工智能、自动控制、模式识别等相关专业，硕士及以上学历；
2、3年以上强化学习研究经验，对优化理论、多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑；
3、发表过期刊或会议论文，在ICML/ NIPS/ IJCAI/ AAAI/ ICLR/ ICRA等国际顶级会议上发表过学术论文者优先考虑；
4、熟练使用TensorFlow/ PyTorch等至少一种深度学习框架，熟练使用Python/ C++等至少一种编程语。

今日头条

职位：强化学习研究员 (职位编号：46326)

北京 | 3-4年经验 | 本科 | 招2人 | 09-24发布

地点：海淀北二街10号泰鹏大厦10层

职位描述：

负责强化学习的游戏AI应用场景商业化落地，包括特征提取、模型训练、强化学习框架开发、在线效果优化等，完成项目交付。

职位要求:
1、计算机、人工智能、自动控制、模式识别等相关专业硕士及以上学位；
2、具有1年以上强化学习研究经验，对多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑；
3、熟练使用TensorFlow/ PyTorch等至少一种深度学习框架，熟练使用Python/ C++等至少一种编程语。

华为-诺亚方舟实验室

职位：强化学习方向实习生

实习地点：深圳/北京

实习时间：不少于3个月

职位描述：

岗位要求：

机器学习、应用统计/数学、计算机、电子工程、自动化等相关方向在校硕士/博士，对主流强化学习算法有一定了解，熟练使用Tensorflow/Pytorch等，有实际应用经验或发表过相关论文者，并有意愿结合实际应用问题做研究者优先考虑。

有意向者请发简历至：

zhuangyuzheng@huawei.com

网易

职位：强化学习研究工程师

硕士及以上||经验不限||语言不限||年龄不限

广州-珠江新城

职位描述：

岗位描述
网易互娱AI实验室招募强化学习研究工程师，利用深度学习和强化学习学习游戏中的智能体。目标是实现AI算法在游戏中的落地，从而提高游戏策划制作效率、提升游戏中NPC角色智能化水平以及提升游戏玩家体验。

岗位要求
1. 计算机和机器学习等相关专业硕士及以上学历；
2. 在机器学习、深度学习和强化学习方向具有扎实的理论和实践基础，保持对领域最前沿技术的追踪；
3. 具有上述方向的工业界经历，有实际项目经验；
4. 熟练掌握一种常见的深度学习框架，譬如 TensorFlow/pytorch/MXNet/Caffe；
5. 喜欢游戏及其开发，了解游戏基本逻辑，对竞技类游戏、手游开发有经验者优先；
6. 在顶级会议（AAAI/IJCAI/ICML /NIPS等）或期刊有论文发表者优先;
7. 能够独立分析并解决问题

阿里巴巴(社招)

职位：自动驾驶实验室-行为决策方向-强化学习算法专家

地点：北京/杭州

岗位描述：

1、利用强化学习等机器学习方法优化自动驾驶行为决策算法；
2、对接自动驾驶仿真平台, 搭建基于迭代学习的自动驾驶行为决策优化工具平台；
3、对接自动驾驶实测数据, 挖掘最优行为决策逻辑, 优化自动驾驶系统的决策算法；
4、有机器人／无人驾驶相关强化学习或行为优化开发经验者优先。

岗位要求：

1、机器人、人工智能等相关专业
2、熟悉强化学习, 并有强化学习在实际自主系统中应用的项目经验
3、熟悉自动驾驶决策, 最优化交通行为决策等算法者优先
4、有在Linux系统下开发经验
5、多年的C++/Python的开发经验，1～3年的实际项目工作经验
6、善于团队协作完成既定任务

VIVO

简介：vivo是一家专注连接产业生态，为追求科技与时尚的前端用户提供智慧终端产品和服务的科技公司，我们致力于整合产业创新能力，并拥有完善的自研自产体系，在中国东莞，深圳，南京，北京，杭州，上海，台北，美国圣地亚哥，日本东京设有研发中心，研发范围包括5G、人工智能、拍照、设计等众多消费级前沿领域。

职位：强化学习算法研究员

职位描述：

1. 根据项目需求，设计智能Agent；
2. 根据项目需求，设计策略算法

任职资格：
1. 硕士或以上学历，计算机、数学等相关专业；
2. 深度理解强化学习，模仿学习，有在实际项目中应用与优化过相关算法者优先；
3. 熟悉强化学习基本算法，使用过DQN，DDPG，GPS，TRPO等算法者优先
4. 精通C/C++、python编程，有一定的项目开发经验；
5. 具有较强的英文阅读能力，能够阅读英文论文和专利；
6. 具有良好的语言沟通能力，团队合作精神，上进心强，具有快速学习能力；
7. 具有论文、专利、竞赛成功的优先考虑。

美团点评

职位：无人配送-强化学习算法专家

博士||2年以上||普通话||年龄不限

地址：北京

职位描述：

工作职责：
1. 融合感知信息、定位数据、地图信息，研发真实道路和交通条件下的无人车驾驶规划算法。
2. 研究前沿的深度学习和强化学习相关算法，提供开放复杂场景下的无人车决策规划解决方案。

任职要求：
1. 具有无人车驾驶规划或机器人规划工作经历。
2. 具有良好的编程基础，至少精通一门编程语言。
3. 具有抽象建模能力，能够根据实际问题合理建模，制定解决方案。
4. 熟悉常用的无人车规划算法。
5. 熟悉ROS等机器人操作系统。
6. 熟悉马尔科夫过程，概率图模型。
7. 熟悉强化学习和深度学习算法。

优先考虑：
1. 硕士或博士在自动化，车辆工程，机械工程，计算机，数学等专业。
2. 有无人车算法开发经验，熟悉无人车软件架构。
3. 有无人车相关比赛经历且取得优异成绩。
4. 在规划算法、深度学习或强化学习方法有深入研究，有落地经验或者发表过高水平论文。
5. 有扎实的数学基础，熟悉常用的优化算法。

北京快手科技有限公司

简介：快手是一个记录和分享生活的短视频社交平台，公司自2011年创立，在过去8年时间里，稳步成长为众多用户的生活分享社区。快手坚持每个人都值得被记录，每个人都有被看到的权利和机会，致力于用技术提升每一个人独特的幸福感。

职位：推荐算法工程师-深度/强化学习算法

统招本科|| 1年以上|| 语言不限|| 年龄不限

地址：北京

职位描述：

工作职责
1. 跟踪机器学习领域前沿技术方向的最新进展，包括强化学习、迁移学习、深度学习等；
2. 将强化学习等机器学习领域前沿技术应用到快手推荐系统中，优化留存率等核心业务指标；
3. 系统框架的迭代和优化，提供可靠的线上服务。
任职资格
1. 机器学习、深度学习相关方向背景扎实，有实际应用经验；
2. 优秀的编程能力C++/Python, 熟悉常见的数据结构和算法；
3. 熟悉Linux开发环境和常用开发工具；熟悉至少一种常用深度学习框架Tensorflow/PyTorch/MxNet等；
4. 较强的文献阅读和理解能力，良好的逻辑思维、沟通表达能力，良好的技术视野和深度，对前沿技术的实际应用有浓厚兴趣
加分项：
1. 高质量技术博客/Github，或知名开源项目contributor；
2. 机器学习竞赛成绩优异者，如Kaggle/KDD等；或有ACM/NOI获奖经历；
3. 顶级会议论文发表者，如NIPS/ICML/IJCAI/CVPR/ACL/SIGKDD等；
4. 在强化学习、迁移学习等前沿领域，有较深入的研究经验；或在推荐系统/搜索排序系统/大型分布式系统有较深入的工作经验。

深圳星行科技有限公司

简介：Roadstar.ai是一家主打L4自动驾驶的科技公司，选择以多传感器融合的方案切入自动驾驶，即通过算法+成本可控的传感器，进行L4级别自动驾驶的研发。

职位：强化学习算法工程师

学历不限|| 1年以上|| 语言不限|| 年龄不限

深圳-龙岗区

职位描述：：

用强化学习方法优化物体追踪，预测性能

基本要求
1. 数理、工程类专业，本科及以上学历
2. 熟悉强化学习和深度强化学习
3. 熟悉深度学习基本方法，熟练使用一种深度学习工具(Tensorflow/Pytorch/Caffe等)
4. 熟悉基本算法与数据结构，熟练使用Python与C++

优先考虑
1. 相关领域（在读）硕士/博士，或等同的实践经验
2. 有自己的开源代码项目(Github)或在其他开源代码库有贡献
3. 在知名强化学习benchmark(Atari game, OpenAI Gym)取得优异成绩
4. 在人工智能/深度学习/机器人领域顶级会议或期刊发表文章
5. 来自知名大学且绩点排名靠前
6. 突出的编程能力(ACM等比赛获奖)

Testin云测

简介：Testin云测（www.testin.cn) 创立于2011年，作为先进的应用服务平台，为全球超过百万的开发者和企业提供测试、安全、推广、产品优化、流量变现，及AI大数据解决方案。

职位：强化学习工程师

地址：北京

职位描述：

1、参与公司核心项目策略模型的开发和集成，在生成对抗网络中应用各类强化学习策略模型生成App测试序列集；
2、配合并支持自动化测试执行团队；

岗位要求：
1、拥有计算机、数学或相关学科本科及以上学位；
2、熟悉各类主流深度学习算法，包括不限于强化学习（DQN、AC等）、GAN、深度学习（CNN、RNN等）、迁移学习等；
3、熟练掌握Tensorflow、Keras、pytorch等至少一种深度学习框架，熟练掌握Python、R或C++其中一门开发语言；
4、对前沿算法有强烈的兴趣，思辨能力强，沟通协作意识好，责任心及结果导向意识强，自驱力强；
5、加分项：在无人驾驶、机器人控制、游戏AI、或其他强化学习相关场景2年以上算法工程经验；

超参数科技(深圳)有限公司

简介：超参数科技是一家专注于游戏AI探索的初创公司，主攻机器学习、强化学习、大系统工程等技术领域，通过将AI能力和游戏场景进行深度结合，为游戏公司提供人工智能解决方案(https://chaocanshu.cn/)

职位：强化学习高级研究员

博士||3年以上||语言不限||年龄不限

深圳-南山区

职位描述：

职责描述：
• 负责强化学习前沿算法的创新研究与探索，发表顶会论文和申请专利；
• 针对游戏AI的应用场景，提供算法和解决方案。

任职要求：
• 计算机、人工智能、自动控制、模式识别等相关专业的博士；
• 具有3年以上强化学习研究经验，对多智能体学习、模仿学习、分布式强化学习等有积累者优先考虑；
• 发表过期刊或会议论文，在ICML/NIPS/IJCAI/AAAI/ICLR/ICRA等国际顶级会议上发表过学术论文者优先考虑；
• 熟练使用TensorFlow/PyTorch等至少一种深度学习框架，熟练使用Python/C++等至少一种编程语言。

北京初速度科技有限公司

职位：强化学习工程师

学历不限||经验不限||语言不限||年龄不限

地址：苏州-元和

职位描述：

1. 利用强化学习，深度学习实现一些场景下的决策算法。
2. 搭建决策系统所需要的虚拟环境。
3. 实现交通管理决策系统和算法，并与系统团队深度合作，确保系统的运行决策过程高效、合理。
岗位要求：
1. 3年以上机器学习经验，熟悉机器学习/强化学习算法，对神经网络有较深刻的理解尤佳。
2. 扎实的编程功底，熟练掌握至少一种常见的深度学习框架，如 TensorFlow/Keras, Caffe, Mxnet，熟练掌握C/C++,JAVA,Python,golang中的一种或多种语言。
3. 在强化学习方向具有扎实的理论基础和相关项目或课题经验
4. 较强的独立工作能力，有责任心，较强的问题分析和解决能力、团队沟通和合作能力
5. 有cityflow ，sumo等交通模拟器实践经验的优先，有搭建虚拟环境训练强化学习算法经验的优先。

下一篇将发出《DRL面试题目汇总》

敬请期待！