AKatydid

CUDA-Operators-0-Activate

本系列文章重点阐述了各类算子的逐步优化过程,涵盖 CUDA 常用算子,并对不同算子的性能瓶颈进行分析。各类算子完整代码请参考个人仓库 OpenKernels。 Element-wise 算子运算时没有数据之间的依赖关系,且运算比较简单,瓶颈在访存上。优化手段一般为:(1)向量化;(2)数学近似。下面以 ReLU 和 GELU 算子为例,展示逐步优化的过程。 1.ReLU 1.1 Naiv...

Trending Tags