牛逼！深度学习又添新框架，来自Facebook 【Pythia】 - 专知

会员服务 ·

0

牛逼！深度学习又添新框架，来自Facebook 【Pythia】

2019 年 6 月 25 日 机器学习算法与Python学习

项目：Pythia

领域：视觉 & 语言

公司：Facebook

GitHub：https://github.com/facebookresearch/pythia

官方文档：https://learnpythia.readthedocs.io/en/latest/

示例：https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

简介：Pythia 是一种模块化的即插即用深度学习框架，数据科学家和机器学习开发者能快速构建、复现和构建基准模型。支持视觉和语言领域的多任务处理。

特点：

支持分布式训练及多种数据集（包括对多种数据集内置的支持，有 VQA、VizWiz、TextVQA 和 VisualDialog）；
支持自定义的损失函数、度量标准、调度和最优化器等；
提供了常用的视觉和语言层级模块；
内建了很多语料库，包括 VQA、VizWiz、TextVQA 和 VisualDialog
SoTA 视觉和语言模型的推理实现，包括 LoRRA（VQA 和 TextVQA 的 SoTA）、Pythia 模型（VQA 2018 挑战赛冠军）和 BAN；
支持多任务，允许在多个数据集上同时训练；

安装：

1# Clone Pythia repository
2git clone https://github.com/facebookresearch/pythia ~/pythia
3
4# Install dependencies and setup
5cd ~/pythia
6python setup.py develop

使用：

获取数据：目前支持特征和 ImDB

1cd ~/pythia;
2# Create data folder
3mkdir -p data && cd data;
4
5# Download and extract the features
6wget https://dl.fbaipublicfiles.com/pythia/features/open_images.tar.gz
7tar xf open_images.tar.gz
8
9# Get vocabularies
10wget http://dl.fbaipublicfiles.com/pythia/data/vocab.tar.gz
11tar xf vocab.tar.gz
12
13# Download detectron weights required by some models
14wget http://dl.fbaipublicfiles.com/pythia/data/detectron_weights.tar.gz
15tar xf detectron_weights.tar.gz
16
17# Download and extract ImDB
18mkdir -p imdb && cd imdb
19wget https://dl.fbaipublicfiles.com/pythia/data/imdb/textvqa_0.5.tar.gz
20tar xf textvqa_0.5.tar.gz

训练：

1cd ~/pythia;
2python tools/run.py --tasks vqa --datasets textvqa --model lorra --config **
3configs/vqa/textvqa/lorra.yml

推断：

1cd ~/pythia/data
2mkdir -p models && cd models;
3
4wget https://dl.fbaipublicfiles.com/pythia/pretrained_models/textvqa/lorra_best.pthcd ../..
5
6python tools/run.py --tasks vqa --datasets textvqa --model lorra --config **
7configs/vqa/textvqa/lorra.yml --resume_file data/models/lorra_best.pth **
8--evalai_inference 1 --run_type inference

推荐阅读

有个程序猿很忧桑：一个命令rm -rf/ ，他把整个公司删没了...

10 个可以快速用Python进行数据分析的小技巧

准备了2个月，终于拿到了推荐算法岗的offer

8 个常用的 Python 爬虫技巧，分分钟提高效率！！

最新QS世界大学排名揭榜！清华超越耶鲁、哥大

喜欢就点击“在看”吧！

登录查看更多

7

相关内容

视觉问答

视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

专知会员服务

23+阅读 · 2020年4月7日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

极市平台

8+阅读 · 2019年3月13日

2018年度最牛逼的30个机器学习项目！

2018年度最牛逼的30个机器学习项目！

大数据技术

3+阅读 · 2018年12月14日

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

量子位

5+阅读 · 2018年7月29日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

Mask R-CNN 源代码终上线，Facebook 开源目标检测平台—Detectron

Mask R-CNN 源代码终上线，Facebook 开源目标检测平台—Detectron

AI100

7+阅读 · 2018年1月24日

用深度学习keras的cnn做图像识别分类，准确率达97%

用深度学习keras的cnn做图像识别分类，准确率达97%

数据挖掘入门与实战

4+阅读 · 2017年12月17日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

单线程cpu1小时收敛的赛车自动驾驶训练

单线程cpu1小时收敛的赛车自动驾驶训练

CreateAMind

5+阅读 · 2017年7月24日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

FastSpeech: Fast, Robust and Controllable Text to Speech

FastSpeech: Fast, Robust and Controllable Text to Speech

Arxiv

3+阅读 · 2019年5月22日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Text-to-Clip Video Retrieval with Early Fusion and Re-Captioning

Arxiv

4+阅读 · 2018年4月13日

Iterative Visual Reasoning Beyond Convolutions

Arxiv

3+阅读 · 2018年3月29日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

VIP会员

相关主题

相关VIP内容

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

【微软】深度学习概述，65页ppt，A gentle introduction to Deep Learning

专知会员服务

66+阅读 · 2020年5月17日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

【ICLR2020-Facebook 2020】深度学习符号化数学，Deep Learning for Symbolic Mathematics，

专知会员服务

23+阅读 · 2020年4月7日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

一网打尽！100+深度学习模型TensorFlow与Pytorch代码实现集合

专知会员服务

142+阅读 · 2020年1月3日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军特种作战条令》最新102页

《洛克希德SR-71“黑鸟”侦察机动力系统》21页slides

美空军作战实验室通过人工智能和指挥控制技术创新推进杀伤链

《指挥控制能力分析方法论》最新报告

相关资讯

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

由浅及深，细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia

极市平台

8+阅读 · 2019年3月13日

2018年度最牛逼的30个机器学习项目！

2018年度最牛逼的30个机器学习项目！

大数据技术

3+阅读 · 2018年12月14日

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

Facebook开源看图问答模型Pythia：拿下VQA比赛冠军就靠它

量子位

5+阅读 · 2018年7月29日

深度学习开发必备开源框架

深度学习开发必备开源框架

九章算法

12+阅读 · 2018年5月30日

Mask R-CNN 源代码终上线，Facebook 开源目标检测平台—Detectron

Mask R-CNN 源代码终上线，Facebook 开源目标检测平台—Detectron

AI100

7+阅读 · 2018年1月24日

用深度学习keras的cnn做图像识别分类，准确率达97%

用深度学习keras的cnn做图像识别分类，准确率达97%

数据挖掘入门与实战

4+阅读 · 2017年12月17日

【推荐】自动特征工程开源框架

【推荐】自动特征工程开源框架

机器学习研究会

17+阅读 · 2017年11月7日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

单线程cpu1小时收敛的赛车自动驾驶训练

单线程cpu1小时收敛的赛车自动驾驶训练

CreateAMind

5+阅读 · 2017年7月24日

相关论文

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

FastSpeech: Fast, Robust and Controllable Text to Speech

FastSpeech: Fast, Robust and Controllable Text to Speech

Arxiv

3+阅读 · 2019年5月22日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Text-to-Clip Video Retrieval with Early Fusion and Re-Captioning

Arxiv

4+阅读 · 2018年4月13日

Iterative Visual Reasoning Beyond Convolutions

Arxiv

3+阅读 · 2018年3月29日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

大家都在搜

斯坦福博士论文

生成式人工智能

久别重逢话双塔

软件无线电

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员