Vectorización del cálculo del producto escalar con SSE4

Vectorización del cálculo del producto escalar con SSE4

Estoy tratando de mejorar este código con el producto de puntos SSE4, pero me está costando encontrar una solución. Esta función obtiene los parámetros qi y tj que contienen matrices flotantes con 80 celdas cada una y luego calcula el producto escalar. El valor devuelto es un vector con cuatro productos de puntos. Así que lo que intento hacer es calcular cuatro productos escalares de veinte valores en paralelo.

¿Tienes alguna idea de cómo mejorar este código?

inline __m128 ScalarProd20Vec(__m128* qi, __m128* tj)
 {
     __m128 res=_mm_add_ps(_mm_mul_ps(tj[0],qi[0]),_mm_mul_ps(tj[1],qi[1]));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[2],qi[2]),_mm_mul_ps(tj[3],qi[3])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[4],qi[4]),_mm_mul_ps(tj[5],qi[5])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[6],qi[6]),_mm_mul_ps(tj[7],qi[7])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[8],qi[8]),_mm_mul_ps(tj[9],qi[9])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[10],qi[10]),_mm_mul_ps(tj[11],qi[11])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[12],qi[12]),_mm_mul_ps(tj[13],qi[13])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[14],qi[14]),_mm_mul_ps(tj[15],qi[15])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[16],qi[16]),_mm_mul_ps(tj[17],qi[17])));
     res=_mm_add_ps(res,_mm_add_ps(_mm_mul_ps(tj[18],qi[18]),_mm_mul_ps(tj[19],qi[19])));
     return res;
 }

Respuestas:

De los cientos de ejemplos de SSE que he visto en SO, su código es uno de los pocos que ya está en muy buena forma desde el principio. No necesita la instrucción de producto punto SSE4. (¡Puedes hacerlo mejor!)

Sin embargo, hay una cosa que puedes probar: (Digo intentarlo porque aún no lo he cronometrado).

Actualmente tiene una cadena de dependencia de datos en res . La adición de vectores es de 3 a 4 ciclos en la mayoría de las máquinas actuales. Por lo tanto, su código tardará un mínimo de 30 ciclos en ejecutarse ya que tiene:

(10 additions on critical path) * (3 cycles addps latency) = 30 cycles

Lo que puedes hacer es dividir el nodo res variable de la siguiente manera:

__m128 res0 = _mm_add_ps(_mm_mul_ps(tj[ 0],qi[ 0]),_mm_mul_ps(tj[ 1],qi[ 1]));
 __m128 res1 = _mm_add_ps(_mm_mul_ps(tj[ 2],qi[ 2]),_mm_mul_ps(tj[ 3],qi[ 3]));
 res0 = _mm_add_ps(res0,_mm_add_ps(_mm_mul_ps(tj[ 4],qi[ 4]),_mm_mul_ps(tj[ 5],qi[ 5]))); 
 res1 = _mm_add_ps(res1,_mm_add_ps(_mm_mul_ps(tj[ 6],qi[ 6]),_mm_mul_ps(tj[ 7],qi[ 7])));
 res0 = _mm_add_ps(res0,_mm_add_ps(_mm_mul_ps(tj[ 8],qi[ 8]),_mm_mul_ps(tj[ 9],qi[ 9])));
 res1 = _mm_add_ps(res1,_mm_add_ps(_mm_mul_ps(tj[10],qi[10]),_mm_mul_ps(tj[11],qi[11])));
 res0 = _mm_add_ps(res0,_mm_add_ps(_mm_mul_ps(tj[12],qi[12]),_mm_mul_ps(tj[13],qi[13])));
 res1 = _mm_add_ps(res1,_mm_add_ps(_mm_mul_ps(tj[14],qi[14]),_mm_mul_ps(tj[15],qi[15])));
 res0 = _mm_add_ps(res0,_mm_add_ps(_mm_mul_ps(tj[16],qi[16]),_mm_mul_ps(tj[17],qi[17])));
 res1 = _mm_add_ps(res1,_mm_add_ps(_mm_mul_ps(tj[18],qi[18]),_mm_mul_ps(tj[19],qi[19])));
 return _mm_add_ps(res0,res1);

Esto casi corta su ruta crítica a la mitad. Tenga en cuenta que debido a la no asociatividad de punto flotante, esta optimización es ilegal para los compiladores.

Aquí hay una versión alternativa que utiliza la división de nodos en 4 direcciones y las instrucciones AMD FMA4. Si no puede usar las sumas fusionadas y multiplicadas, siéntase libre de dividirlas. Todavía podría ser mejor que la primera versión anterior.

__m128 res0 = _mm_mul_ps(tj[ 0],qi[ 0]);
 __m128 res1 = _mm_mul_ps(tj[ 1],qi[ 1]);
 __m128 res2 = _mm_mul_ps(tj[ 2],qi[ 2]);
 __m128 res3 = _mm_mul_ps(tj[ 3],qi[ 3]);
 res0 = _mm_macc_ps(tj[ 4],qi[ 4],res0);
 res1 = _mm_macc_ps(tj[ 5],qi[ 5],res1);
 res2 = _mm_macc_ps(tj[ 6],qi[ 6],res2);
 res3 = _mm_macc_ps(tj[ 7],qi[ 7],res3);
 res0 = _mm_macc_ps(tj[ 8],qi[ 8],res0);
 res1 = _mm_macc_ps(tj[ 9],qi[ 9],res1);
 res2 = _mm_macc_ps(tj[10],qi[10],res2);
 res3 = _mm_macc_ps(tj[11],qi[11],res3);
 res0 = _mm_macc_ps(tj[12],qi[12],res0);
 res1 = _mm_macc_ps(tj[13],qi[13],res1);
 res2 = _mm_macc_ps(tj[14],qi[14],res2);
 res3 = _mm_macc_ps(tj[15],qi[15],res3);
 res0 = _mm_macc_ps(tj[16],qi[16],res0);
 res1 = _mm_macc_ps(tj[17],qi[17],res1);
 res2 = _mm_macc_ps(tj[18],qi[18],res2);
 res3 = _mm_macc_ps(tj[19],qi[19],res3);
 res0 = _mm_add_ps(res0,res1);
 res2 = _mm_add_ps(res2,res3);
 return _mm_add_ps(res0,res2);