c++如何用SIMD指令实现memcpy_c++手写高性能内存拷贝【底层优化】

日期：2025-12-30 00:00 / 作者：穿越時空

高性能 memcpy 的核心是根据对齐情况分路径优化：全对齐用 _mm256_load_si256/_store_si256，偏移对齐调整偏移，非对齐用 loadu/storeu 避跨缓存行，小尺寸兜底，辅以预取和内存预热。

用SIMD指令手写高性能 memcpy，核心是**对齐+向量化+边界处理**，不是简单套用指令，而是根据数据长度、对齐情况选择最优策略。x86上常用 SSE/AVX，ARM 上用 NEON，这里以 x86-64 + AVX2 为主展开（兼容性好、寄存器宽、指令丰富）。

内存拷贝性能差异极大取决于源和目标地址是否对齐（通常指 16/32/64 字节）。AVX2 的 _mm256_loadu_si256 支持非对齐加载但慢于对齐版本；真正高性能必须区分路径：

全对齐路径：src 和 dst 都是 32 字节对齐，且长度 ≥ 32 → 用 _mm256_load_si256 + _mm256_store_si256 批量搬移
偏移对齐路径：两者地址模 32 同余（即相对偏移对齐），可用对齐 load/store + 整体偏移调整
非对齐混用路径：用 _mm256_loadu_si256 + _mm256_storeu_si256，但需避免跨缓存行导致的额外延迟
小尺寸兜底：长度 rep movsb（现代 CPU 对其有微码优化）

典型内循环如下（假设已对齐、长度为 32 的倍数）：

（伪代码示意，实际需用 intrin

sics 或内联汇编）

for (size_t i = 0; i < len; i += 32) {
    __m256i v = _mm256_load_si256((__m256i*)(src + i));
    _mm256_store_si256((__m256i*)(dst + i), v);
}

关键点：

长度往往不是 32 的整数倍，尾部必须精确处理：

先按 32 字节主循环搬运，记下剩余字节数 tail = len % 32
tail == 0 → 结束
tail ≤ 16 → 用 SSE 指令（_mm_loadu_si128 / _mm_storeu_si128）
tail > 16 → 先搬 16 字节，再用 8/4/2/1 字节逐个拷贝（或用 memcpy 小尺寸兜底）
更优做法：用位掩码 + _mm256_maskload_epi32（AVX2）或 _mm256_mask_mov_epi32（AVX512），但兼容性差

别盲目追求“最高速”，要结合场景权衡：

基本上就这些。SIMD memcpy 不是黑魔法，而是对齐感知 + 分支精简 + 指令选型的组合优化。libc 实现（如 glibc 的 multiarch memcpy）已经非常成熟，自己写主要适用于特定硬件、固定对齐、极致低延迟场景，或者作为学习底层内存行为的实践。