本文内容包含线程网格、
线程网格
优化方法:尽量避免使用小的线程块,导致无法充分利用硬件。
通常线程块中的线程数量最好是一个线程束大小的整数倍,即32的整数倍。
两种线程块的布局方式,如32*16的数组,假设调度四个线程块,可以选择长方形布局和正方形布局,但是选择长方形布局要优于正方形布局,可以通过添加如下代码来选择布局

//长方形布局
Dim3 threads_rect(32,4);
Dim3 blocks_rect(1,4);
//正方形布局
Dim3 threads_rect(16,8);
Dim3 blocks_rect(2,2);无论哪种布局方式,线程总数都是相同的