zoukankan      html  css  js  c++  java
  • 用SSE汇编求向量的点积

    class __declspec(align(16)) vector4 {
    public:
        union 
    {
            
    struct float x, y, z, w; };
            __m128 mm;
        }
    ;
    }
    ;

    inline 
    void dot3( vector4 & r, const vector4 & x, const vector4 & y )
    {
        
    /*register vector4    s;
        s.mm = _mm_mul_ps( x.mm , y.mm );
        r.mm = _mm_add_ss( s.mm , _mm_movehl_ps( s.mm , s.mm ) );
        r.mm = _mm_add_ss( r.mm , _mm_shuffle_ps( r.mm , r.mm , 1 ) );
    */

        __asm 
    {
            mov        ecx, y
            mov        edx, x
            mov        eax, r
            movaps    xmm0, xmmword ptr [ecx]
            movaps    xmm1, xmmword ptr [edx]
            mulps    xmm1, xmm0        
    //    xmm1 = s0, s1, s2, s3
            movhlps    xmm0, xmm1        //    xmm0 = s2, s3, *, *
            addss    xmm0, xmm1        //    xmm0 = s0+s2, s3, *, *
            shufps    xmm1, xmm1, 1    //    xmm1 = s1, s0, s0, s0
            addss    xmm0, xmm1        //    xmm0 = s0+s2+s1, s3, *, *
            movaps    xmmword ptr [eax], xmm0
        }

    }


    inline 
    void dot4( vector4 *r, const vector4 *x, const vector4 *y )
    {
        
    /*register vector4    s;
        s.mm = _mm_mul_ps( x->mm , y->mm );
        r->mm = _mm_add_ss( s.mm , _mm_movehl_ps( s.mm , s.mm ) );
        r->mm = _mm_add_ss( r->mm , _mm_shuffle_ps( r->mm , r->mm , 1 ) );
        r->mm = _mm_add_ss( r->mm , _mm_shuffle_ps( r->mm , r->mm , 3 ) );
    */

        __asm 
    {
            mov        ecx, y
            mov        edx, x
            mov        eax, r
            movaps    xmm0, xmmword ptr [ecx]
            movaps    xmm1, xmmword ptr [edx]
            mulps    xmm1, xmm0        
    //    xmm1 = s0, s1, s2, s3
            movhlps    xmm0, xmm1        //    xmm0 = s2, s3, *, *
            addss    xmm0, xmm1        //    xmm0 = s0+s2, s3, *, *
            shufps    xmm1, xmm1, 253    //    xmm1 = s1, s3, s3, s3
            addss    xmm0, xmm1        //    xmm0 = s0+s2+s1, s3, *, *
            movhlps    xmm1, xmm1        //    xmm1 = s3, s3, s3, s3
            addss    xmm0, xmm1        //    xmm0 = s0+s2+s1+s3, s3, *, *
            movaps    xmmword ptr [eax], xmm0
        }

    }
  • 相关阅读:
    2所非211院校挺进全球高校600强,甩开一众985 | 泰晤士世界大学排行榜出炉
    深度强化学习专栏(三)
    PyTorch专栏(八):微调基于torchvision 0.3的目标检测模型
    PyTorch专栏(六): 混合前端的seq2seq模型部署
    3分钟了解GPT Bert与XLNet的差异
    PyTorch专栏(五):迁移学习
    NLPer,你知道最近很火的自然语言处理库么?
    E
    网络流 I
    D
  • 原文地址:https://www.cnblogs.com/len3d/p/818165.html
Copyright © 2011-2022 走看看