超强整理,科班算法岗的秋招之路

2020 年 10 月 13 日 AINLP

NewBeeNLP原创出品

作者 | 叶先生

写在前面

首先说一下本人背景:算法岗,科班,本硕都是某 985。有一段两个半月的大厂非核心部门实习经历,一篇冷门方向的 SCI 一区期刊论文,一个小比赛的 TOP5。(实习比赛论文都有,但每样都一般般,所以秋招也是十分艰难)

秋招结果:投递了大大小小 30 多家公司,目前是拿到一份意向书。

  • 意向书:字节(经历了一次笔试挂,一次三面挂,再被捞三面后上岸的)
  • 泡池子:京东物流,华为,360,OPPO(其中 360 和 OPPO 已经开过部分奖了,我应该排序比较靠后或者挂了)
  • 终面挂或者排序挂:网易互联网,百度提前批,拼多多拼越计划
  • 二面挂:阿里(二面完后很久状态都没改变),百度正式批,腾讯 PCG
  • 一面挂:美团,快手
  • 进行中:腾讯音乐,网易互娱

还有一些投了之后没消息或者笔试完后没消息,这里就不列出来了。

项目相关提问

项目相关提问我只列举一下可能对大家有借鉴意义的问题。

  1. 有没有观察单个特征和标签之间的联系
  2. 每次加入一个特征,如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。(组合后可能变好或者差)
  3. ID embedding 怎么做
  4. 项目中 Embedding 学习到的是什么,特征交叉的作用是什么
  5. 为什么使用 DeepFM 来进行特征交叉
  6. DeepFM 和 Deep&Wide 区别,写一下 FM 公式,DeepFM 优点
  7. DeepFM 只是简单的交叉,其他复杂点的对特征进行交叉的网络了解吗
  8. 你说你发现了训练集和测试集分布不一致的问题。你是怎么发现这个问题的,怎么诊断定位,除了可视化还有没有其他直观的指标
  9. 对于一个算法课题,你觉得最重要的几个环节有哪些。
  10. 项目遇到了什么困难,如何解决?
  11. 项目取得了啥效果,项目的核心提升是哪些操作
  12. 项目中使用了哪些特征?如果要继续改进的话,还可以使用哪些特征?
  13. 有没有使用其他更好的算法来解决问题
  14. 你觉得你实习做的项目还有哪些地方可以做优化
  15. 项目遇到瓶颈,反映在业务上是怎么样的,你要怎么去解决这个问题
  16. 有没有调研过业界的做法
  17. 你的比赛任务,四分类,评估指标用 auc 合理吗
  18. 比赛的 LSTM 和 CNN 是怎么用的,为什么可以用。讲一下 RNN 和 CNN 的区别,为啥在你这个比赛中 LSTM 比 CNN 效果好

机器学习基础相关提问

特征相关

  1. 讲一下特征工程
  2. 类别特征编码方式有哪些?如何解决 target encoding 的 target leakage?count encoding 有个缺点:测试集和训练集分布不同,导致特征频率不一样。怎么解决?
  3. 如何进行特征选择
  4. 项目中如何做交叉特征,为什么这样交叉,基于业务意义?
  5. 为什么需要计算特征重要性,计算特征重要性的方法有哪些
  6. 连续特征怎么分箱,如何判断分箱的结果是好是坏
  7. 特征平滑方法有哪些
  8. 怎么处理长尾问题,从样本,模型的角度来看,从优化器的角度来看
  9. 什么样的 ID 经过 Embedding 后可能有效,如何筛选有效的 ID。有些 ID 数量级很大,怎么处理

神经网络相关

  1. 神经网络如何跳出局部最优
  2. 神经网络如何缓解过拟合, 讲一下 dropout,dropout 训练和预测的时候有什么不同, dropout 操作类似于机器学习中的什么操作
  3. batch normalization 和 layer normalization 区别,写一下 bn 公式
  4. 优化器了解哪些,adam 相对 sgd 的改进
  5. 激活函数的作用,各个激活函数的优缺点
  6. tf 处理特征的类有没有了解( tf.feature_column)
  7. 讲一下 word2vec,有哪两种形式,词的数量比较多,分类时怎么优化, word2vec 怎么做负采样
  8. item2vec 有没有了解
  9. 多分类如果有 10000 类别,怎么优化
  10. graph embedding 了解吗,神经网络做 graph embedding 了解吗
  11. 讲一下图神经网络
  12. tf embedding_lookup 原理
  13. 文本分类有了解吗,说一下 textcnn
  14. 如何缓解 RNN 的梯度消失
  15. 讲一下 LSTM。LSTM 为啥能缓解梯度爆炸和梯度消失?LSTM 激活函数可以使用 relu 吗
  16. 排序算法了解吗?说了快排,归并,冒泡等(后面发现好像问的是 ctr 中的排序算法)
  17. 了解哪些推荐算法,nlp 的预训练模型了解吗,attention, transformer,bert 了解吗
  18. CNN 和 RNN 在实际使用中有哪些优缺点?NLP 中,什么情况下使用 CNN,什么情况下使用 RNN?
  19. 神经网络权重全 0 初始化会有什么问题?应该怎样初始化?讲讲 Xavier 初始化

树模型相关

  1. 树模型怎么处理连续特征
  2. 随机森林的随机性体现在哪里?boosting 和 bagging 区别。随机森林是不是树越多越好。随机森林采样是有放回采样还是无放回采样
  3. c4.5 用来解决 ID3 什么问题,gbdt 和 rf 分别是集成的什么思想,解决什么误差
  4. GBDT 怎么生成一个新的树,怎么确定叶子节点的权重
  5. 随机森林和 xgboost 那个树的深度更深
  6. XGBoost 和 GBDT 的不同,为啥 XGBoost 选择决策树作为基分类器?
  7. XGBoost 和 GBDT 分裂叶子节点的不同之处,写一下 XGBoost 计算节点分裂收益的公式
  8. XGBoost 如果损失函数没有二阶导,该怎么办
  9. GBDT 和 XGBoost 用什么基分类器,如何分裂叶子节点,处理分类问题和回归问题有啥不同
  10. Lightgbm 相比于 XGBoost 的改进,LightGBM 为什么比 GBDT 快。LightGBM 怎么做并行
  11. 看过 XGBoost, Lightgbm 等的源码没?(没有。。)
  12. 讲一下 bagging,boosting,stacking
  13. stacking 和 nn 的区别?(nn 也可以搭积木,拼接)

其他相关

  1. 哪些算法需要对特征先进行归一化,这类算法有什么特点,不进行归一化的缺点是?
  2. 如何解决过拟合,讲一下 L1 和 L2,L1 为啥能得到稀疏解
  3. 如何处理样本不平衡
  4. 分类和回归任务有哪些评估指标
  5. 写 huber loss 公式
  6. auc 是啥,怎么解释。如果线下 auc 好,线上 auc 变差,有什么可能的原因
  7. auc 针对的是单个值的排序,那么怎么对 list 进行排序(ndcg ?)
  8. 多分类 auc 怎么算
  9. 交叉熵公式
  10. LR 的损失函数是啥,怎么来的,手推 LR
  11. LR 如何优化目标函数
  12. SVM 和 LR 区别
  13. 为什么 LR 使用交叉熵而不是 MSE
  14. 讲一下先验,后验,最大似然估计,最大后验估计
  15. 抛一次硬币,正面为上,是啥分布。抛 n 次硬币,正面为上的数目是啥分布
  16. 广义线性回归了解么

排序,操作系统,数据结构,计网

这方面问得比较少

  1. 快排时间复杂度
  2. 排序算法了解哪些,讲一下快排和堆排,堆排适用于哪些场景
  3. 讲一下哈希表,哈希表用什么数据结构实现,怎么解决哈希冲突,哈希表数组空间大小怎么确定
  4. 线程,进程是啥,进程间通信方式,如何保证线程安全
  5. 多进程和多线程区别,各自的适用场景,线程安全怎么解决,有哪些锁,乐观锁悲观锁了解吗,自旋锁适用于什么场景
  6. TCP 协议了解吗

编程语言,大数据相关

Hive 相关

  1. 了解 Spark,Hadoop,Hive,Scala 吗?(我基本不会,实习时写过一些简单的 Hive SQL)
  2. Hive SQL 大表 join 小表,可以怎么优化
  3. Hive sql union 和 union all 区别,行转列和列转行了解吗
  4. Hive 读取 json 某个 key 对应的值
  5. Hive 数据倾斜怎么处理

Python 相关

  1. 说一下 Python 中的 lambda
  2. Python copy 和 deepcopy 区别, if a 和 if a is not None 区别
  3. Python is 和 == 区别,两者分别在比较什么?Python 没有 switch... case.. ,如何优雅地实现
  4. Python 有哪些对象类型,哪些是可变对象,哪些是不可变对象
  5. Python 中,li = [0,1,2] ,那么 li[3] 和 li[:3] 分别返回什么
  6. Python 写过多线程吗
  7. 字典有 key, value,按照 value 进行排序

手撕

链表相关

  1. 链表翻转
  2. 合并两个有序链表
  3. 判断链表是否有环,返回环的入口

树相关

  1. 无序数组转二叉搜索树
  2. 两个树节点的最近公共祖先
  3. 二叉树先序遍历展开成链表 in-place
  4. 无序数组转平衡二叉搜索树(不能先对数组进行排序)
  5. 给你两颗二叉树 a,b(只有数的结构而没有 value),判断a 是否 b 的子树(只需要 b 的某个子树结构跟 a 一样就行),能否继续优化?

DFS,BFS

  1. 打印字符串所有子序列
  2. 字符串全排列(字符串可能有重复元素)
  3. 迷宫问题,迷宫里有多个人处于不同位置,每个人逃出迷宫有最短路径值,求这些最短路径值的最大值
  4. 划分为 k 个相等的子集:给定一个整数数组 nums 和一个正整数 k,找出是否有可能把这个数组分成 k 个非空子集,其总和都相等

排序,大小

  1. 子数组最大和
  2. 子矩阵和的最大值
  3. 两个有序数组的中位数
  4. 求数组的第 k 大数,时间复杂度是多少?
  5. 读取文本,统计,然后排序(有多个排序因素)
  6. 一个数组只包含0,1,2三个数,对这个数组进行排序
  7. 最大数组合:给定一个非负整数数组,求一个拼接出来的最大数。比如 [2, 32] => 322

DP

  1. 股票最大利润(只能交易一次)
  2. 走楼梯方法数,一次可以走一个台阶或者两个台阶,总共有 n 个台阶
  3. 01数组,长度为 n,1代表可达,0 代表不可到达,一次可以跳 3 到 5 步。求跨越该数组的最小步数(起点可以看成 index 为 -1,终点可以看成 index 为 n)

其他

  1. 顺时针打印二维矩阵
  2. 升序数组,求不同绝对值个数
  3. 二维平面判断一个点是否在三角形以内
  4. 给定数组,计算有多少个子数组和为 target
  5. 怎么编程求几何平均值,需要考虑什么情况,怎么解决
  6. 提供东西视图和南北视图,求城市体积最大值,最小值,leetcode 807 变种
  7. 正整数数组满足 2 * a[i] < a[i+1],给定数字 K,数组中是否存在两个数 x + y = K
  8. 协同过滤中,需要计算用户相似度矩阵。给定用户 ID,每个用户的听歌列表(music id 列表)。计算用户相似度矩阵
  9. 给一个数据表,有两个字段(user, login_time),用 SQL 求连续两天登录的用户占比

场景题,开放题

  1. 在搜索框输入文字的时候,会出现搜索提示,比如输入‘腾讯’可能会提示 ‘腾讯视频’。你觉得搜索提示是用什么数据结构来实现的
  2. 学校门口的十字路口车流量预测,怎么建模?(已有历史车流量数据)
  3. 年龄预测(范围 10 到 50),目标是最大化准确率,怎么设计损失函数?如果要求预测结果在正负 3 以内就行,怎么设计损失函数,如何优化?
  4. 有个商品库,商品库记录的车的型号,最低价格,最高价格(没有精准价格)。当前用户在浏览某个商品,要求推荐同个档次的商品,如何建模?假如商品库很大,要推荐相似度最大的 3 个商品,如何解决?
  5. 定义兄弟字符串如下:若两个字符串存在一样的字符,每个字符次数都一样,但是顺序有可能不同。比如 abbc 和 acbb 是兄弟字符串,abbc 和 acb 不是。现有一个很大的日志文件,每一行是一个单词。问题:给定一个单词,查询日志文件中该单词兄弟字符串有多少个。有多次查询操作。
  6. 怎么给 50 w 高考考生成绩排序,要求时间空间复杂度尽可能低
  7. 一副扑克牌,取出一张,剩下的 53 张给你看,如何判断抽出的是哪一张(要求时间,空间复杂度最优)
  8. 一个超级大文件,每一行有一个 ip 地址,内存有限,如何找出其中重复次数最多的 ip 地址
  9. 有一款新游戏,怎么识别出土豪(可能在新游里充大量钱的用户)
  10. 提供一个包含所有英文单词的字典,为手机的T9输入法设计一个索引,例如输入4能够提示出g、h、i开头的英文单词(greate、hello、……),输入43能够提示出ge、he、id、if (hello……) 等词开通的英文单词,

- END -



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

欢迎加入AINLP招聘交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注社招/校招/实习

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
1

相关内容

xgboost的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个C++实现,并能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
196+阅读 · 2020年2月11日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
已拿Offer!字节跳动算法面试经验
CVer
22+阅读 · 2020年7月3日
一文看尽80道AI算法高频面试题
CVer
6+阅读 · 2020年6月17日
【面经】字节AI Lab-NLP算法热乎面经
深度学习自然语言处理
14+阅读 · 2020年3月29日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
春招已近,这份GitHub万星的ML算法面试大全请收下
算法与数学之美
6+阅读 · 2019年2月27日
春招已近,送你一份ML算法面试大全!
机器学习算法与Python学习
10+阅读 · 2019年2月22日
2019 秋招算法面经:小米篇
CVer
5+阅读 · 2019年2月2日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
Arxiv
0+阅读 · 2020年11月26日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
11+阅读 · 2018年4月8日
Arxiv
6+阅读 · 2018年3月19日
VIP会员
相关资讯
已拿Offer!字节跳动算法面试经验
CVer
22+阅读 · 2020年7月3日
一文看尽80道AI算法高频面试题
CVer
6+阅读 · 2020年6月17日
【面经】字节AI Lab-NLP算法热乎面经
深度学习自然语言处理
14+阅读 · 2020年3月29日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
春招已近,这份GitHub万星的ML算法面试大全请收下
算法与数学之美
6+阅读 · 2019年2月27日
春招已近,送你一份ML算法面试大全!
机器学习算法与Python学习
10+阅读 · 2019年2月22日
2019 秋招算法面经:小米篇
CVer
5+阅读 · 2019年2月2日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
Top
微信扫码咨询专知VIP会员