大模型一出,各类企业的各类“模型”竞赛般的亮家伙,算力时代抢先到来。2023年4月超算互联网的正式部署,标志着,很快,越来越多的应用都需要巨大的计算资源。这给传统的计算机体系结构带来了巨大的挑战,计算领域的革命性技术将持续涌现。而基于CUDA的GPU并行程序优化正引领着这场变革的浪潮! CUDA对于加速模型训练和部署有着显著的积极影响:CUDA提供了强大的并行计算能力,可以大幅度减少训练和推理深度学习模型所需的时间,同时可以帮助开发人员进行大规模的计算和优化模型的部署过程。 使用CUDA的优点显而易见,更创新,更速度、高质量。 技术人的科技嗅觉永远都是最敏锐的,也是最爱学习、不断进修的。自从我们的CPU并行程序优化实战课程面世之后,催更GPU并行程序优化的声音就越来越多、越来越多不同行业的朋友关注到了高性能计算。 终于,不负众望,我们精心研发的GPU并行程序性能优化实战课程将如期和大家见面。先睹为快(《基于CUDA的GPU并行程序优化实战课程》课程大纲)→ 第一章:GPU并行计算导论 | 类型 | 内容 | 知识点 | 课堂教学 | CUDA导论及课程介绍 | 并行计算、GPU、CUDA导论 | 课程内容介绍 | 课堂教学 | CUDA软件结构 | 异构编程模型 | 课堂实战,第一个CUDA程序:Hello World | CUDA软件结构 | kernel函数定义与调用 | CUDA函数前缀 | nvcc编译 | 第二章CUDA编程模型 | 类型 | 内容 | 知识点 | 课堂教学 | CUDA 内存管理 | CUDA编程模型 | 课堂实战:CUDA实现向量相加 | GPU存储层次 | device和host数据传输 | CUDA内存管理API | cudaMalloc() | cudaMemcpy() | cudaFree() | 课堂教学 | CUDA线程层次 | thread | 课堂实战:GPU加速模拟信号降噪:一维卷积平滑滤波 | block | grid | 一维、二维、三维索引 | 课堂实战 | CUDA 存储模型 | 寄存器 | 课堂实战:一维卷积平滑滤波程序性能优化(常量内存+共享内存优化) | 共享内存 | 本地内存 | 常量内存 | 全局内存 | 纹理内存 | 第三章CUDA进阶使用 | 类型 | 内容 | 知识点 | 课堂教学 | CUDA硬件结构与调度 | SM的结构 | 线程调度机制: | 硬件Core、SM、Device到线程层次的映射 | SIMT | 线程束 | 延迟隐藏 | 课堂实战 | CUDA常用编程接口 | 流 | 流和事件 | 事件 | 课堂实战:流和事件演示实验 | 异步传输 | 原子操作 | 设备管理 | 错误管理 | 内置数据类型 | 原子操作 | 课堂实战 | 多GPU数据传输 | Peer-to-Peer Memory Access | 课堂实战:演示实验 | 大数据向量点积运算 | 第四章 CUDA进阶项目(一) 高性能计算经典问题:基于CUDA的归约及求和优化 | 类型 | 内容 | 知识点 | 课堂教学 | 归约算法实现及优化 | 访存优化、线程调度优化 | |
课堂实战 | 前缀求和算法实现及优化 | 内存优化、线程调度优化 | |
课堂实战 | SN递归算法实现及优化 |
| |
第五章 CUDA进阶项目(二) 高性能计算经典问题:基于CUDA的矩阵乘优化 | 类型 | 内容 | 知识点 | 课堂教学 | 矩阵乘算法SGEMM实现及优化 | 分块算法、存储、cudaMallocPitch()、分支消除等优化 | |
课堂实战 | 稀疏矩阵向量乘算法实现及优化 | 矩阵存储格式CSR、ELL等优化 | |
第六章 CUDA进阶项目(三) 基于GPU的人工智能/深度学习框架与图像处理 | 类型 | 内容 | 备注 | 课堂教学 | CUDA深度神经网络库cuDNN部署与应用 | cuDNN安装 | 轻量级神经网络库Darknet介绍与安装 | darknet安装、参数调优 | 课堂教学 | 深度学习推理库TensorRT+CUDA加速Pytorch模型 | 利用TensorRT对Pytorch模型推理加速 | |
课堂教学 | 基于GPU的图像处理算法优化 | CUDA+CV处理大图像数据 | |
导师团介绍:

在《基于CUDA的GPU并行程序优化实战课程》中,我们将通过实战化项目学习带你深入理解GPU的工作原理,并教授最佳实践技巧,帮助你快速解决复杂任务。
|
说点什么...