13小时2600赞，特斯拉大佬Karpathy博客《A Recipe for Training Neural Networks》

2019 年 4 月 26 日 专知

【导读】Andrej Karpathy是特斯拉自动驾驶神经网络主管，曾是李飞飞的徒弟。他今天发布了博客《A Recipe for Training Neural Networks》介绍了神经网络训练的各种技巧，在Twitter上仅13小时就获得了2600+赞和833转发。

Andrej Karpathy是特斯拉自动驾驶神经网络主管，曾是李飞飞的徒弟。他的主页上有关于他经历的介绍：

2017-now: Director of AI at Tesla Neural Networks for the Autopilot
2016-2017: Research Scientist at OpenAI Deep Learning, Generative Models, Reinforcement Learning
Summer 2015: DeepMind Internship Deep Reinforcement Learning group
Summer 2013: Google Research Internship Large-Scale Supervised Deep Learning for Videos
2011-2015: Stanford Computer Science Ph.D. student Deep Learning, Computer Vision, Natural Language Processing. Adviser: Fei-Fei Li.
Summer 2011: Google Research Internship Large-Scale Unsupervised Deep Learning for Videos
2009-2011: University of British Columbia: MSc Learning Controllers for Physically-simulated Figures. Adviser: Michiel van de Panne
2005-2009: University of Toronto: BSc Double major in Computer Science and Physics

Andrej Karpathy今天发布了博客《A Recipe for Training Neural Networks》:

https://karpathy.github.io/2019/04/25/recipe/

《A Recipe for Training Neural Networks》大致目录如下：

掌握数据
建立端到端训练/评价框架和哑基准线

固定随机种子
简化
在评估中添加重要数字
在初始阶段验证损失
初始化
人类基准线
设置一个独立于输入的基准线
过拟合一个batch
验证减少训练损失
网络传播前可视化
可视化预测动态
使用反向传播来获得依赖关系：
泛化特例

过拟合

选择模型
Adam是安全的
一次只复杂化一个
不要相信学习率衰减默认值

正则化

获取更多数据
数据增强
有创意的增强
预训练
坚持监督学习
更低的输入维度
更小的模型
减小批尺寸
Dropout
权重衰减
早停法
尝试大模型

调参

随机网格搜索
超参优化

继续压榨

集成
放着让它训练

请关注专知公众号（点击上方蓝色专知关注）

后台回复“RTNN”就可以获取《A Recipe for Training Neural Networks》下载链接~

原文截图：

参考资料：

https://karpathy.github.io/2019/04/25/recipe/

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎登录www.zhuanzhi.ai，注册登录专知，获取更多AI知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

请加专知小助手微信（扫一扫如下二维码添加），加入专知人工智能主题群，咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成！530+位同学在学习，现在报名，限时优惠！网易云课堂人工智能畅销榜首位！

点击“阅读原文”，了解报名专知《深度学习:算法到实战》课程

登录查看更多

相关内容

Neural Networks

关注 0

神经网络（Neural Networks）是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛，以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交，有助于全面的神经网络研究，从行为和大脑建模，学习算法，通过数学和计算分析，系统的工程和技术应用，大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流，并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此，神经网络编委会代表的专家领域包括心理学，神经生物学，计算机科学，工程，数学，物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学，神经科学，学习系统，数学和计算分析、工程和应用。官网地址：http://dblp.uni-trier.de/db/journals/nn/

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

专知会员服务

83+阅读 · 2020年6月24日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

54+阅读 · 2020年5月26日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

48+阅读 · 2020年5月3日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

25+阅读 · 2020年3月26日