面对 EDA 模拟电路仿真中的底层需求, 需要对大量不同规模矩阵按限定的依赖关系进行高性能计算.
点击空白处退出提示
面对 EDA 模拟电路仿真中的底层需求, 需要对大量不同规模矩阵按限定的依赖关系进行高性能计算.
基于采用 Cuda 接口的 GPU 加速器, 实现大量不同规模矩阵的高性能并行 LU 分解和线性方程组求解. 性能相比于直接调用开源 magma 库提升约 25\%.
1) 将难以并行化的 LU 分解问题分解为若干个小规模的 LU 分解问题和若干 GPU 所擅长进行的矩阵乘法, 以尽可能发挥 GPU 的并行优势.
2) 充分利用 GPU 板卡及芯片内部的三个级别的缓存, 让计算与 IO 的时间实现互相隐藏.
3) 利用 Cuda 的图接口, 将不同规模矩阵的计算任务及其依赖关系提交给 Cuda, 可实现自动化的并行任务调度, 从而充分利用 GPU 的线程资源.





评论