首发于既智录
机器学习\大数据\自然语言处理\新技术等值得关注的进展 2021年4月

机器学习\大数据\自然语言处理\新技术等值得关注的进展 2021年4月

机器学习\大数据\自然语言处理\新技术等值得关注的进展 2021年4月

目录

  • NLP 自然语言处理
  • 推荐系统
  • 图神经网络与知识图谱
  • 大数据
  • 深度学习
  • 深度学习-CV
  • 深度学习-生物信息
  • 金融与风控
  • 硬件
  • 文史
  • 编程与安全



NLP 自然语言处理

轻量级NLP工具Trankit开源,中文处理更精准,超越斯坦福Stanza,内存占用小45%

论文小综 | 文档级关系抽取方法(上)

知识图谱如何助力文本摘要生成

COLING 2020 | 面向医疗对话的摘要生成

论文分享 | ACL 2020 问答系统相关研究

领跑NLG技术!追一科技开源首个中文T5模型

抽取式摘要最新研究进展

NLP玩得溜,「兵器」得趁手:GLUE排行第一的那种,了解下?

谁说GPT只擅长生成?清华、智源等研究力证:GPT语言理解能力不输BERT

千呼万唤始出来——GPT-3终于开源!

对话交互:封闭域任务型与开放域闲聊算法技术

机器翻译界的BERT:可快速得到任意机翻模型的mRASP

【小贝出品】定制你的对话机器人 - 基于RASA搭建

“进化”的搜索方式:揭秘微软语义搜索背后的技术

微信看一看如何过滤广告文章?

腾讯信息流内容理解技术实践

赛尔原创 | 融入常识知识的生成式对话摘要

270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)

无监督语义相似度哪家强?我们做了个比较全面的评测

多样性文本生成任务的研究进展

腾讯信息流内容理解技术实践

忆臻:ACL2020问答系统及机器阅读理解代码整理

量子位:首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识

刘伟杰:一大波优质开源中文预训练模型权重

业界大盘点!文本相关性在搜广推三大场景中的应用!

多样性文本生成任务的研究进展

从顶会论文看多样性文本生成最新研究进展

【摘要抽取】抽取式摘要最新研究进展

融入常识知识的生成式对话摘要

一文带你入门知识图谱多跳问答

NLP与对比学习的巧妙融合,简单暴力效果显著!

对话模型,DialogBERT和DialogWAE优势何在?

270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG(开放测试)

​Transformer升级之路:从Performer到线性Attention

赛尔笔记 | 多模态预训练模型简述

Data-to-Text(一):财经快讯和体育快讯是怎么生成的?

fighting41love/funNLP

liuhuanyong/miningzhidaoqacorpus




推荐系统


深度排序模型在淘宝直播的演进与应用

搜推实战【下】:模型优化中的Bias问题和特征工程

AAAI2021 微信看一看的强化学习推荐HRL-Rec

多模态图神经网络解决短视频推荐难题

多目标排序模型在腾讯QQ看点推荐中的应用实践

要提升微信看一看推荐混排的长期收益?试试深度强化学习

WWW2021 微信的多目标推荐任务PAPERec

IPM2020 | 长短期兴趣建模的图神经网络新闻推荐系统

搜推实战【上】:精排侧曝光到转化的优化说明和DeepMTL详细介绍

深度排序模型在淘宝直播的演进与应用

模型化召回在陌陌社交推荐的应用和探索

针对多目标推荐任务,微信看一看用PAPERec框架逼近帕累托最优 | WWW-2021

推荐系统技术演进趋势:召回篇

深度排序模型在淘宝直播的演进与应用

如何将用户行为和属性用于推荐系统?

全民K歌内容挖掘与召回

社区分享 | TensorFlow Recommenders-Addons 现已开源,让推荐系统效果更好!

腾讯 QQ 看点图文多目标推荐实践经验

SENet双塔模型:在推荐领域召回粗排的应用及其它

深入理解推荐系统:Youtube多目标排序模型

用于看一看list-wise推荐系统的HRL-Rec模型简述 | AAAI-2021

微信看一看实时相关推荐介绍

让你的AB-Test效果立竿见影——CUPED-Plus方法

​万亿数据 | 腾讯看点多维实时分析系统技术架构

多目标排序模型在腾讯QQ看点推荐中的应用实践

阿里定向广告智能投放技术体系

SIGIR2021 | 超越I2I和向量内积,淘宝新一代召回范式:PDN模型

MIND - 基于动态路由的用户多向量召回

图神经网络07-基于Graph的推荐引擎构建

社区分享 | TensorFlow Recommenders-Addons 现已开源,让推荐系统效果更好!

AAAI2021 微信看一看的强化学习推荐HRL-Rec

要提升微信看一看推荐混排的长期收益?试试深度强化学习

WWW2021 微信的多目标推荐任务PAPERec

多模态图神经网络解决短视频推荐难题





图神经网络与知识图谱


图网络GNN(特别篇):一文遍览图网络中16种典型的图卷积和9种图池化Graph Pooling

从3篇顶会看基于图的异常检测

[万字长文] 图神经网络的解释性综述

基于图神经网络的定向算法在蚂蚁投放营销中的应用——Hubble算法框架

【源头活水】在基于会话的图神经推荐系统中加入停留时间

ICDM2020 | 图神经网络的对抗标签翻转攻击与防御

【图神经网络】GCN-3(semi-GCN)

图神经网络(04)-[彩蛋和实战] 基于Graph的传统机器学习方法

AAAI'21 Tutorial | 图神经网络的设计空间

[NIPS2020] 参数化的 GNN 解释器

赠书 | 知识图谱上的图神经网络

COLING 2020 | 基于方向建模图卷积网络的联合方面提取和情感分析

ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答

实习生Carry,全球第一个毫秒级推理的GNN框架

【干货】美团大脑系列之商品知识图谱的构建及应用.pdf(附下载链接)

论文小综 | 知识图谱中的复杂查询问答

WSDM 2021 | 时间序列转化为动态图进行表示

他山之石 | 利用常识知识图对会话流进行显式建模

KDD Cup 2021 OGB知识图谱赛题分析

百度知识图谱技术及应用

论文小综 | 知识图谱中的复杂查询问答

实现图深度学习复杂研究性质任务太头疼?这个新工具包帮你应对

AAAI2021论文: 时空Kriging的归纳式图神经网络

知识图谱能否拯救NLP的未来?

ACM MM'19 |MMGCN: 面向抖音快手等数据集的多模态图神经网络

15个图神经网络的应用场景总结

WSDM'21 | GraphSMOTE: 图神经网络中的不平衡问题研究(代码已经公开)

一文带你入门知识图谱多跳问答

ICDM2020 | 两极反转,GNN的标签翻转攻击与防御

【多模态】详解:多模态知识图谱种类及其应用

【深度】清华黄高等人新作:动态神经网络首篇综述

论文浅尝 | S3QLRDF: 用于大规模RDF数据分布式SPARQL查询的关系分割架构

斯坦福大牛Jure主讲《图机器学习》课程CS224W完结,视频及课件全部放出!

图数据的自监督学习介绍

【顶会AAAI2021】 用于时空Kriging的归纳图神经网络

【顶会AAAI2021】 层次图卷积网络交通预测

Dynamic/Temporal Graph动态图|时态图相关论文,数据集汇总

如何加快城市路网中最短路径查询效率?

WSDM'21 | GraphSMOTE: 图神经网络中的不平衡问题研究(代码已经公开)

【GNN框架系列】DGL第二讲:使用Deep Graph Library实现GNN进行链接预测

NAACL 2021 | QA-GNN:基于语言模型和知识图谱的问答推理

贝壳基于事理图谱的应用与实践


大数据

全民K歌推荐后台架构

Iceberg 实践 | Flink 集成 Iceberg 在同程艺龙的实践

数据仓库中的增量&全量

Flink SQL 在网易云音乐的产品化实践

MySQL 深入学习总结

基于 Flink SQL CDC 的实时数据同步方案

Hive 原理 | Apache Hive 联邦查询 Query Federation

Hudi 原理 | Apache Hudi 核心概念总览

基于Flink和Druid的实时多维分析系统在蔚来汽车的应用

ClickHouse 在唯品会 OLAP 系统的实践

Hudi on Flink 快速上手指南

贝壳基于Druid的OLAP引擎应用实践

它来喽!它真的来喽!!Streaming与Hudi、Hive湖仓一体!

用Flink造实时数据湖:金融数仓远达不到的T+0,我来!

Hudi on Flink在顺丰的实践应用

爱奇艺大数据生态实时数仓

大数据架构之离线数仓与实时数仓架构设计

爱奇艺大数据生态的实时化建设

腾讯游戏实时计算应用平台建设实践

美团图数据库平台建设及业务实践

一文了解实时数据仓库的发展、架构和趋势

Apache Iceberg 你需要知道的原理与技术

流批一体的Bigo实时计算平台建设实践

Flink在实时计算平台和实时数仓中的企业级应用小结

PolarDB-X:PolarDB-X 如何用 15M 内存跑 TPC-H 1G?

【腾讯看点】ClickHouse最优实践与原理剖析

​万亿数据 | 腾讯看点多维实时分析系统技术架构

Nginx 架构浅析

第35问:InnoDB 刷

脏页慢,会影响我的业务么?

MySQL脏页刷新策略

汽车之家基于 Flink 的数据传输平台的设计与实践

瞧瞧,传统金融业用Flink做实时计算也可以很顺滑

Hive技术原理(推荐收藏)

孙金城:时序数据库的现状及核心技术

Redis vs Tendis:冷热混合存储版架构揭秘

美团图数据库平台建设及业务实践

融合趋势下基于 Flink Kylin Hudi 湖仓一体!的大数据生态体系

Flink + Hudi 在 Linkflow 构建实时数据湖的生产实践

Flink在唯品会的实践

Flink 实践 | 基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

MySQL 数据库之互联网常用架构方案

融合趋势下基于 Flink Kylin Hudi 湖仓一体!的大数据生态体系

孙金城:时序数据库的现状及核心技术

美团图数据库平台建设及业务实践

知乎数据集成平台建设实践

第35问:InnoDB 刷脏页慢,会影响我的业务么?

MySQL脏页刷新策略

汽车之家基于 Flink 的数据传输平台的设计与实践

瞧瞧,传统金融业用Flink做实时计算也可以很顺滑

【腾讯看点】ClickHouse最优实践与原理剖析

Nginx 架构浅析


深度学习


TorchMetrics:PyTorch的指标度量库

专治“炼丹侠”各种不服:1分钟就能搞个AI应用 | 最新开源深度学习框架工具套件TinyMS问世

PyTorch 大杀器:用 AdaptDL 优化 GPU 集群中的 EDL

无需手工设计,从零开始搜索损失函数

竞赛总结:阿里高德路况算法大赛

比PyTorch、TensorFlow更快,MindSpore开源一周年升级巨量新特性

快速可微分排序算法PyTorch包,配有自定义C ++和CUDA,性能更好

微信团队的深度学习框架deepx_core开源啦 超越卷积、自注意力机制:强大的神经网络新算子involution

AutoML大提速,谷歌开源自动化寻找最优ML模型新平台Model Search

ICLR 2021研究挖掘游戏技能包?有序记忆决策网络帮你实现

支持向量机-数学解释

AAAI 2021 | 深度元学习预测城市零售销量

分层强化学习(HRL)全面总结

AAAI 2021 | 深度元学习预测城市零售销量

TorchMetrics:PyTorch的指标度量库

分层强化学习(HRL)全面总结

【源头活水】联邦学习 | FedProx 算法

PyTorch 源码解读之 cpp_extension:揭秘 C++/CUDA 算子实现和调用全流程

Kaggle GM CPMP:GPU不仅用于炼丹

Kaggle数据竞赛之特征工程篇-类别变量的四种上分姿势!

kaggle进阶技能-相关性可视化三重奏!

揭秘京东超大规模联邦学习平台,如何打破信息孤岛、实现安全共建!

郑哲东:Pytorch有什么节省显存的小技巧?

【他山之石】ONNX模型文件->可执行文件 C Runtime通路 具体实现方法

量子机器学习新定理,「贫瘠高原」问题得以解决

Netflix提出梯度提升决策树网络Hammock!

Kaggle知识点:内存优化方法

自适应超参数,增强量子机器学习算法

节能型AI应用的新方法——一种将ANN转换为SNN的算法

优化Pytorch模型训练的小技巧

曾伊言:小雅 ElegantRL: 基于PyTorch的轻量-高效-稳定的深度强化学习框架

【强基固本】信息量、熵、相对熵(KL散度)、交叉熵

对比学习模型:研究进展精要(上)

对比学习模型:研究进展及精要(下)

对比学习模型:研究进展及精要(中)

陈云:科普帖:深度学习中GPU和显存分析

机器之心:时代变了,大人:RTX 3090时代,哪款显卡配得上我的炼丹炉?

稚晖:【保姆级教程】个人深度学习工作站配置指南

【他山之石】新生手册:PyTorch分布式训练

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021

丹琦女神新作:对比学习,简单到只需要Dropout两下

对比学习(Contrastive Learning):研究进展精要

从SGD到NadaMax,10种优化算法原理及实现

Hugging Face发布PyTorch新库「Accelerate」:适用于多GPU、TPU、混合精度训练

我对你的爱,是只为你而留的神经元

线上分享 | 揭秘「无量」,腾讯PCG推荐中台超大规模深度学习系统

混合密度网络:也许你需要的是一颗骰子

关于Ray,你想了解的都在这里!让分布式计算变得简单

丽台科普 | 什么是量子计算?

【源头活水】联邦学习 | FedProx 算法

小孩都看得懂的 SVD

ICLR 2021研究挖掘游戏技能包?有序记忆决策网络帮你实现


WeNet 更新:支持中文开源1385h数据集并开放预训练模型

WeNet更新:支持AISHELL-2数据集并开放预训练模型

基于Kaldi和Pytorch,厦大语音实验室推出声纹识别开源工具ASV-Subtools

剑桥大学张超:《基于深度学习的多说话人分割聚类》



深度学习-CV


三年磨一剑——微信OCR轻松提取图片文字

【源头活水】Transformer实现Video Instance Segmentation

你能freestyle一段舞蹈吗?DanceNet3D:我可以!

Kaggle赛题解析:Shopee商品多模态匹配

深度图像修复的一个突破

只要你一句话,马斯克就得留扫把头,项目已开源丨Adobe等出品

Monster Mash:一款基于草图的工具,可支持即兴进行 3D 建模和动画制作

【干货】淘宝人生里的虚拟人像渲染技术(含直播回放)

OpenVINO实时人脸表面3D点云提取

打造万物识别之利器——微信扫一扫地标识别篇




深度学习-生物信息


人类正向“造物主”靠拢!基于CAD的全新基因编辑软件,让设计新生命像画画一样简单

人人学懂免疫学:第二十一期

借力诺奖揽众多大厂订单,「光电镊子」成细胞疗法、合成生物学新工具?

基因组编写CAD即将面市,仍有无限可能

如何挑选合适的多样性类药化合物库?(上)

如何挑选合适的多样性类药化合物库?(下)

【AI化学】AI预测复杂天然产物的合成路线

在培养皿中“合成”,人类创造出迄今为止最真实和最完整的胚胎模型

MLST | GraphINVENT: 基于GNN的分子生成平台

Nat. Biomed. Eng.| IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现

J.Am.Chem.Soc. | 基于半监督学习的晶体结构的合成预测

斯坦福科学家开源了莫德纳mRNA新冠疫苗的基因测序,在GitHub上

清华博士生深度学习模型MolMapNet登上Nature子刊,可预测药物特性

Nat. Commun. | DRUML:利用机器学习预测抗癌药物疗效

mRNA疫苗"火了",DNA疫苗还会远吗?

AI辅助一半小分子药物开发,阿斯利康公布最新研发管线【附86页PPT】

炸锅了,Moderna的新冠疫苗配方,上GitHub上找?

Nature 视频| 轻松理解疫苗是如何工作的

科学种子的培育——mRNA如何改变世界

BIB | PreDTIs: 利用梯度增强框架预测药物-靶点相互作用

人人学懂免疫学:第二十二期 mRNA疫苗"火了",DNA疫苗还会远吗?

Nature科普视频| 一款新型疫苗是如何诞生的

WWW2021 | 多视图图对比表示学习用于药物药物相互作用预测

Anal. Chem. | PepFormer:基于Transformer的对比学习框架实现多肽可检测性预测

ICLR2020 | GraphAF:基于FLOW的分子图自回归生成模型

AI辅助一半小分子药物开发,阿斯利康公布最新研发管线【附86页PPT】

BIB | PreDTIs: 利用梯度增强框架预测药物-靶点相互作用

人人学懂免疫学:第二十二期

Nature科普视频| 一款新型疫苗是如何诞生的

WWW2021 | 多视图图对比表示学习用于药物药物相互作用预测

Nat. Mach. Intell. | 合成模型性能难提升?试试这个数据降噪策略

优点多多,复旦王永明团队等开发出高性能CRISPR工具酶——SlugCas9-HF

癌细胞为何会不断分裂,失去控制?CRISPR筛选技术揭开谜团

“木头大王” 胡良兵等人又一创新:用木头粉、甘蔗渣、麦秸造环保塑料,3个月就能完全降解

【药物发现】我们是否在逼近一个化学奇点?

一文读懂 CAR-T 治疗以及最新进展


WWW2021 | 多视图图对比表示学习用于药物药物相互作用预测

改变历史的有机合成


金融与风控

商品期货月度效应的统计

模型可解释性在保险理赔反欺诈中的实践

Python版商品期货跨期布林对冲策略

简易波动EMV策略

时间序列基础教程总结!

【手把手教你】使用Python构建股票财务指标打分系统

银行流水能挖掘哪些风险信息?

【python量化】用python搭建一个股票舆情分析系统

市场波动加剧:动量策略参数是否应该更敏感?

算法策略 | MACD跨周期短线交易策略开发(股指+商品双版)

用好时间维度,策略规则、模型特征不再愁

风控知识--风险定价

统一框架下的截面动量与时序动量策略

乖离率BIAS策略 拥挤交易:行业轮动与因子择时策略的构建

国际货币基金:量子计算与金融体系—超距幽灵作用?

北向资金能预示大盘涨跌?【附Python源码】

三分钟玩转微软AI量化投资开源库QLib

牛股价量探索性分析与趋势指标可视化

量化研究 | CTA择时出场策略指南大全

SF29丨魔改自适应均线+多空不对称组合

筑底形态ZDZB策略

【Python量化】股票涨停板探索性分析与数据挖掘

使用自动编码器的半监督分类用于欺诈检测中

干货分享丨关系网络反欺诈行为识别

因子择时【2】

建模困难,缺乏行为数据?联系人倒排表特征,了解一下

图解正反马丁格尔策略

基于ARMA-EGARCH模型的比特币波动率建模和分析

【python量化】因子评估全流程详解

客户流失模型来学习下干货内容吧~

科学家研发多模态生物识别系统,基于脑纹独特性来防范身份欺骗 | 专访

Backtrader 来了!

用Python编写基于Supertrend“超级趋势线”强化策略



硬件


三星堆再次开挖,3D 打印硅胶膜首次应用于文物提取,X光衍射仪、超景深显微镜等高科技齐上阵

5年计划两年完成!霍尼韦尔超速将量子计算机体量翻十倍!

省电指南-ESP8266如何降低功耗

常见的IC封装形式大全(超详细)

价格不断飙升的GPU,居然「出生」这么晚!一文带你了解GPU的前生今世

RISC-V入门科普

为什么RISC-V受追捧?用RISC-V微控制器开发难不难?本文告诉你~

使用 CPUFetch 在 Linux 终端中漂亮地显示 CPU 细节 | Linux 中国

芯片圈变天了!英伟达推出首个CPU,狂捧Arm生态

穷人的量子比特:量子计算机太难造了,先试试概率计算机?

价格不断飙升的GPU,居然「出生」这么晚!一文带你了解GPU的前生今世

RISC-V入门科普

为什么RISC-V受追捧?用RISC-V微控制器开发难不难?本文告诉你~ 光电超导集成电路,赋能下一代AI

无线充电技术简介

怀念一下上海无线电厂和她们的产品

「芯片大脑」——速度提高20倍,能耗降低200倍

【拆解】某平台19元的儿童电话手表,究竟怎么做到的?




文史

【珍贵资料】红光村海家宅的前世今生!农村到经纬城市绿洲的脱变!

张东:江淮走廊新石器时代晚期的聚落变迁

巴蜀文字何处寻

【吴越风物志】用地图揭示江南青团的奥秘

「吴语物事」纳尼?你以为个“蚕豆”,或许并弗是蚕豆

吴语全域图2019个人学习

国宝级“快捷酒店”,年轻人在此相拥而眠

“碳中和”背后的中国能源大三角


编程及安全

用JS解释JS!详解AST及其应用

C++性能优化

王磊:通过字节码保护Node.js源码之原理篇

“克隆战争”来了?100 多个知名网站克隆版的开源代码

【移动安全】程序代码安全测试方法

两万字总结《C++ Primer》要点

Python加速运行技巧

干货 | SSRF漏洞利用总结

如何用 C++ 读写文件 | Linux 中国

学习如何用 C 语言来进行文件输入输出操作 | Linux 中国

7000+威胁ip分享【IPDB蓝队威胁共享库】

C++ memset 踩坑

【Vulnhub靶机系列】DC1

【防溯源】如何通过域名 + CDN 完美隐藏你的 C2

值得现在就去尝试的四款开源聊天应用软件 | Linux 中国

迈向Flutter深水区:美团外卖Web-App一体化架构实践

流量为王:ABTest流量分层分桶机制

github.com/man-group/dt

编辑于 2021-05-01 18:18