针对3D3C PIV(tomographic particle image velocimetry)在大规模三维流场重建过程中面临的显存瓶颈与计算效率约束问题,千眼狼(Revealer)采用多GPU并行计算架构,实现大规模三维流场数据计算能力的有效扩展与吞吐提升,为高分辨率三维流场测量提供了一种可扩展计算架构路径。
1.实验背景
3D3C PIV技术通过三维体素重建与三维互相关计算,实现对复杂流场的三维三分量速度场测量。随着实验光学系统分辨率提升以及提速重建精度增强,计算数据规模呈现指数级增长趋势。
在计算流程中,三维互相关阶段承担主要计算负载,该过程在算法层面具有高度并行特性,工程层面受到显存容量与数据吞吐能力限制。当窗口数量达到数万级别时,单GPU系统常出现显存溢出或计算中断,限制高分辨率3D3C PIV实验的进一步发展,因此,千眼狼(Revealer)3D3C PIV系统引入多GPU并行计算架构,以提升大规模三维流场重建能力与计算可扩展性。
2.实验方法
本研究在统一硬件与参数配置下开展对比实验。
算法层面,采用基于空间分块的多GPU调度策略。三维体素空间按照几何连续性原则划分为多个子区域,每个子区域对应独立窗口集合,并分配至不同GPU执行互相关计算任务。各GPU在本地完成三维相关运算与位移场求解后,将局部结果回传至主控端进行统一拼接与坐标对齐,从而重建完整三维流场。
上述方法在计算逻辑上保持与单GPU一致,仅执行层面引入并行调度机制,因此不改变3D3C PIV物理定义与数学模型。
实验选取三组不同规模实测数据进行对比分析,分别对应966、35568、49608个流场窗口,覆盖从小规模到极限规模计算负载区间。
3.实验结果
3.1 小规模流场窗口(966个)
在966个流场窗口条件下,单GPU与多GPU均可稳定完成3D3C PIV全流程计算,包括体素重建、窗口互相关以及速度场求解。
在计算效果与精度方面,两种计算模式输出的速度场结果在整体结构上完全一致(图左为单GPU,图右为多GPU),相关峰位置与亚像素拟合结果上未观察到可分辨差异,表明多GPU并行调度未引入可观测的系统性重构误差。

在计算性能方面,多GPU相较单GPU表现出一定加速能力,耗时降低56.5%。

3.2 中规模流场窗口(35568个)
在35568个流场窗口条件下,计算负载显著增加,互相关计算在总耗时中的占比进一步提高。
在计算效果与精度方面,多GPU与单GPU结果保持严格一致,流场结构特征(图左单GPU, 图右多GPU)未出现可辨识偏移,说明分块计算与结果拼接过程具有良好的数值一致性与稳定性。

在计算性能方面,多GPU架构表现出相对优势,相较单GPU整体计算时间降低约32.5%。计算效率提升主要来源于互相关计算任务在多个GPU之间的并行分发,使得计算吞吐能力得到有效释放。

3.3 大规模流场窗口(49608个)
在49608个流场窗口的大规模数据条件下,系统进入显存与计算资源高压区间,对计算架构的扩展能力提出更高要求。
在计算效果与精度方面,多GPU仍可稳定完成全流程三维流场重建,单GPU由于显存容量限制无法完成完整计算流程,出现计算中断或任务不可执行情况。而多GPU架构通过显存分担与任务拆分机制,实现完整计算链路闭环,约106秒完成全量流场重建任务,从计算可行性层面实现对单GPU方案的突破。


上述不同流场规模的计算对比结果可以看出,多GPU方案在小规模数据下主要体现为计算加速能力,在中等规模数据下表现为显著的性能优势,而在大规模数据条件下则体现为从“不可计算”到“可计算”的能力扩展。
4. 实验结论
I. 本实验验证了多GPU并行架构在3D3C PIV大规模流场计算中的有效性。在不改变原有互相关算法与物理模型的前提下,通过空间分块与并行调度,可缓解单GPU显存瓶颈,提升整体计算吞吐能力。
II. 工程层面,该方法使3D3C PIV计算体系升级为多卡可扩展计算架构,为后续复杂流动结构分析、高精度瞬态流场重建提供计算基础保障。
总体而言,千眼狼(Revealer)多GPU技术不仅是一种性能优化手段,更是实现3D3C PIV计算体系可持续扩展的关键技术路径。