As hardware architectures are evolving in the push towards exascale, developing Computational Science and Engineering (CSE) applications depend on performance portable approaches for sustainable software development. This paper describes one aspect of performance portability with respect to developing a portable library of kernels that serve the needs of several CSE applications and software frameworks. We describe Kokkos Kernels, a library of kernels for sparse linear algebra, dense linear algebra and graph kernels. We describe the design principles of such a library and demonstrate portable performance of the library using some selected kernels. Specifically, we demonstrate the performance of four sparse kernels, three dense batched kernels, two graph kernels and one team level algorithm.


翻译:随着硬件结构在向伸缩的推进过程中不断发展,开发计算科学和工程(CSE)应用取决于可操作的可移动性可持续软件开发方法,本文描述了开发一个可移动的内核库以满足若干CSE应用和软件框架需要的可移动内核库的可操作性的一个方面。我们描述了Kokkos Kernels,一个用于稀薄线性代数、稠密线性代数和图形内核的内核的内核库。我们描述了这样一个图书馆的设计原则,并用一些选定的内核展示了图书馆的可移动性性能。具体地说,我们展示了四个稀疏的内核、三个密集的分批式内核、两个图形内核和一个团队级算法的性能。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年4月2日
一份简单《图神经网络》教程,28页ppt
专知会员服务
127+阅读 · 2020年8月2日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
4+阅读 · 2017年10月30日
VIP会员
相关VIP内容
相关资讯
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
Top
微信扫码咨询专知VIP会员