自然语言处理

计算机视觉

深度学习（Deep Learning）

用transformer做视觉，具体是怎么把图片转成token的？

关注者

381

被浏览

197,262

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 17 个回答

用卷积，步长=卷核，卷后每个位置就是一根token

发布于 2021-09-25 02:41

查看全部 17 个回答