使用 Dask 在 Python 中进行并行计算 | Linux 中国

2019 年 4 月 18 日 Linux中国
Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。
-- Moshe Zadka

关于 Python 性能的一个常见抱怨是全局解释器锁[1](GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。

但当你需要并行化到多核时,你不需要放弃使用 Python:Dask[2] 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展规模的限制,但一般达不到。

虽然 Dask 有许多内置的数组操作,但举一个非内置的例子,我们可以计算偏度[3]

   
   
     
  1. import numpy
  2. import dask
  3. from dask import array as darray
  4. arr = dask.from_array(numpy.array(my_data), chunks=(1000,))
  5. mean = darray.mean()
  6. stddev = darray.std(arr)
  7. unnormalized_moment = darry.mean(arr * arr * arr)
  8. ## See formula in wikipedia:
  9. skewness = ((unnormalized_moment - (3 * mean * stddev ** 2) - mean ** 3) /
  10. stddev ** 3)

请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。

当然,并不是我们所有的操作都可由这个库并行化,有时我们需要自己实现并行性。

为此,Dask 有一个“延迟”功能:

   
   
     
  1. import dask
  2. def is_palindrome(s):
  3. return s == s[::-1]
  4. palindromes = [dask.delayed(is_palindrome)(s) for s in string_list]
  5. total = dask.delayed(sum)(palindromes)
  6. result = total.compute()

这将计算字符串是否是回文并返回回文的数量。

虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。


via: https://opensource.com/article/19/4/parallel-computation-python-dask

作者:Moshe Zadka (Community Moderator)[5] 选题:lujun9972 译者:geekpi 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

登录查看更多
4

相关内容

Dask是一个并行计算库,能在集群中进行分布式计算,能以一种更方便简洁的方式处理大数据量,与Spark这些大数据处理框架相比较,Dask更轻。Dask更侧重与其他框架,如:Numpy,Pandas,Scikit-learning相结合,从而使其能更加方便进行分布式并行计算。
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
257+阅读 · 2020年6月10日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【电子书推荐】Data Science with Python and Dask
专知会员服务
42+阅读 · 2019年6月1日
Python 3.8.0来了!
数据派THU
5+阅读 · 2019年10月22日
用 Python 开发 Excel 宏脚本的神器
私募工场
26+阅读 · 2019年9月8日
使用Python进行图像增强
AI研习社
17+阅读 · 2018年9月30日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
深度学习 | 免费使用Google Colab的GPU云计算平台
沈浩老师
11+阅读 · 2018年2月4日
教你用Python来玩跳一跳
七月在线实验室
6+阅读 · 2018年1月2日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
4+阅读 · 2018年10月31日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
257+阅读 · 2020年6月10日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
【电子书推荐】Data Science with Python and Dask
专知会员服务
42+阅读 · 2019年6月1日
相关资讯
Python 3.8.0来了!
数据派THU
5+阅读 · 2019年10月22日
用 Python 开发 Excel 宏脚本的神器
私募工场
26+阅读 · 2019年9月8日
使用Python进行图像增强
AI研习社
17+阅读 · 2018年9月30日
实战 | 用Python做图像处理(三)
七月在线实验室
15+阅读 · 2018年5月29日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
深度学习 | 免费使用Google Colab的GPU云计算平台
沈浩老师
11+阅读 · 2018年2月4日
教你用Python来玩跳一跳
七月在线实验室
6+阅读 · 2018年1月2日
Top
微信扫码咨询专知VIP会员