7-Harnessing NVIDIA Tensor Cores_ An Exploration of CUTLASS
大纲
-
介绍Cutlass背景和应用场景s
-
Cutlass工作原理
-
Cutlass在PyTorch生态中的应用
-
最新功能介绍
-
性能benchmark
-
未来发展计划
详细要点
1. 背景介绍
-
Cutlass是NVIDIA开源的深度学习库
-
用于在张量核上进行编程
-
起初用于Volta,现已广泛应用在生态系统中
2. 工作原理
-
构建于5个抽象层压缩灵活性
-
Cute简化线程数据映射
-
Collective和Tiled ops处理内核计算
3. Cutlass在PyTorch生态中的应用
-
在PyTorch中作为Inductor后端
-
AItemplate和Xformer使用Cutlass特性
-
PyTorch geometric应用Cutlass做group gemm