_mm256_msubadd_ps

更新:2011 年 3 月

需要 Visual Studio 2010 SP1。

Microsoft 专用

生成 FMA4 YMM 指令 vfmsubaddps 以执行其源的交替单精度舍入浮点乘法-加法/减法。

__m256 _mm256_msubadd_ps (
   __m256 src1,
   __m256 src2,
   __m256 src3
);

参数

  • [in] src1
    包含八个 32 位浮点值的 256 位参数。

  • [in] src2
    包含八个 32 位浮点值的 256 位参数。

  • [in] src3
    包含八个 32 位浮点值的 256 位参数。

返回值

包含八个 32 位浮点值的 256 位结果 r。

r[i] := src1[i] * src2[i] - src3[i]; // i even
r[i] := src1[i] * src2[i] + src3[i]; // i odd

要求

内部

体系结构

_mm256_msubadd_ps

FMA4

头文件 <intrin.h>

备注

将 src1 中八个单精度浮点值每个乘以 src2 中相应的值。 将 src3 中的每个偶数源值添加到其相应的积,将每个奇数值从其相应的积中减去,并将每个结果存储为目标中相应的值。 每个乘法-加/减法对都使用末尾处单精度舍入进行,如同中间结果都计算到无限精度。

vfmsubaddps 指令是 FMA4 系列指令的一部分。 在您使用此内部函数之前,必须确保处理器支持该指令。 若要确定此指令的硬件支持,调用 InfoType = 0x80000001 的 __cpuid 内部函数并检查 CPUInfo[2] (ECX) 的位 16。 当该指令受支持时,此位为 1,否则为 0

示例

#include <stdio.h>
#include <intrin.h>
int main()
{
    __m256 a, b, c, d;
    int i;
    for (i = 0; i < 8; i++) {
        a.m256_f32[i] = i;
        b.m256_f32[i] = 2.;
        c.m256_f32[i] = 3.;
    }
    d = _mm256_msubadd_ps(a, b, c);
    for (i = 0; i < 8; i++) printf_s(" %.3f", d.m256_f32[i]);
    printf_s("\n");
}
  

请参见

参考

__cpuid, __cpuidex

其他资源

_mm_msubadd_ps

_mm256_maddsub_ps

_mm256_msubadd_pd

针对 Visual Studio 2010 SP1 添加的 FMA4 内部函数

修订记录

Date

修订记录

原因

2011 年 3 月

添加了本内容。

SP1 功能更改。