基于多GPU技术的3D3C-PIV大规模流场计算提速实验

全世界各行各业联合起来，internet一定要实现！

2026-07-03 eNet&Ciweek

针对3D3C PIV（tomographic particle image velocimetry）在大规模三维流场重建过程中面临的显存瓶颈与计算效率约束问题，千眼狼（Revealer）采用多GPU并行计算架构，实现大规模三维流场数据计算能力的有效扩展与吞吐提升，为高分辨率三维流场测量提供了一种可扩展计算架构路径。

1.实验背景

3D3C PIV技术通过三维体素重建与三维互相关计算，实现对复杂流场的三维三分量速度场测量。随着实验光学系统分辨率提升以及提速重建精度增强，计算数据规模呈现指数级增长趋势。

在计算流程中，三维互相关阶段承担主要计算负载，该过程在算法层面具有高度并行特性，工程层面受到显存容量与数据吞吐能力限制。当窗口数量达到数万级别时，单GPU系统常出现显存溢出或计算中断，限制高分辨率3D3C PIV实验的进一步发展，因此，千眼狼（Revealer）3D3C PIV系统引入多GPU并行计算架构，以提升大规模三维流场重建能力与计算可扩展性。

2.实验方法

本研究在统一硬件与参数配置下开展对比实验。

算法层面，采用基于空间分块的多GPU调度策略。三维体素空间按照几何连续性原则划分为多个子区域，每个子区域对应独立窗口集合，并分配至不同GPU执行互相关计算任务。各GPU在本地完成三维相关运算与位移场求解后，将局部结果回传至主控端进行统一拼接与坐标对齐，从而重建完整三维流场。

上述方法在计算逻辑上保持与单GPU一致，仅执行层面引入并行调度机制，因此不改变3D3C PIV物理定义与数学模型。

实验选取三组不同规模实测数据进行对比分析，分别对应966、35568、49608个流场窗口，覆盖从小规模到极限规模计算负载区间。

3.实验结果

3.1 小规模流场窗口（966个）

在966个流场窗口条件下，单GPU与多GPU均可稳定完成3D3C PIV全流程计算，包括体素重建、窗口互相关以及速度场求解。

在计算效果与精度方面，两种计算模式输出的速度场结果在整体结构上完全一致（图左为单GPU，图右为多GPU），相关峰位置与亚像素拟合结果上未观察到可分辨差异，表明多GPU并行调度未引入可观测的系统性重构误差。

在计算性能方面，多GPU相较单GPU表现出一定加速能力，耗时降低56.5%。

3.2 中规模流场窗口（35568个）

在35568个流场窗口条件下，计算负载显著增加，互相关计算在总耗时中的占比进一步提高。

在计算效果与精度方面，多GPU与单GPU结果保持严格一致，流场结构特征（图左单GPU，图右多GPU）未出现可辨识偏移，说明分块计算与结果拼接过程具有良好的数值一致性与稳定性。

在计算性能方面，多GPU架构表现出相对优势，相较单GPU整体计算时间降低约32.5%。计算效率提升主要来源于互相关计算任务在多个GPU之间的并行分发，使得计算吞吐能力得到有效释放。

3.3 大规模流场窗口（49608个）

在49608个流场窗口的大规模数据条件下，系统进入显存与计算资源高压区间，对计算架构的扩展能力提出更高要求。

在计算效果与精度方面，多GPU仍可稳定完成全流程三维流场重建，单GPU由于显存容量限制无法完成完整计算流程，出现计算中断或任务不可执行情况。而多GPU架构通过显存分担与任务拆分机制，实现完整计算链路闭环，约106秒完成全量流场重建任务，从计算可行性层面实现对单GPU方案的突破。

上述不同流场规模的计算对比结果可以看出，多GPU方案在小规模数据下主要体现为计算加速能力，在中等规模数据下表现为显著的性能优势，而在大规模数据条件下则体现为从“不可计算”到“可计算”的能力扩展。

4. 实验结论

I. 本实验验证了多GPU并行架构在3D3C PIV大规模流场计算中的有效性。在不改变原有互相关算法与物理模型的前提下，通过空间分块与并行调度，可缓解单GPU显存瓶颈，提升整体计算吞吐能力。

II. 工程层面，该方法使3D3C PIV计算体系升级为多卡可扩展计算架构，为后续复杂流动结构分析、高精度瞬态流场重建提供计算基础保障。

总体而言，千眼狼（Revealer）多GPU技术不仅是一种性能优化手段，更是实现3D3C PIV计算体系可持续扩展的关键技术路径。