impeg2_inter_pred_sse42_intr.c - Android社区 - https://www.androidos.net.cn/

/******************************************************************************
 *
 * Copyright (C) 2015 The Android Open Source Project
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at:
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 *
 *****************************************************************************
 * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore
*/

/**
 *******************************************************************************
 * @file
 *  impeg2_inter_pred_sse42_intr.c
 *
 * @brief
 *  Contains Motion compensation function definitions for MPEG2 decoder
 *
 * @author
 *  Mohit [100664]
 *
 * - impeg2_copy_mb_sse42()
 * - impeg2_interpolate_sse42()
 * - impeg2_mc_halfx_halfy_8x8_sse42()
 * - impeg2_mc_halfx_fully_8x8_sse42()
 * - impeg2_mc_fullx_halfy_8x8_sse42()
 * - impeg2_mc_fullx_fully_8x8_sse42()
 *
 * @remarks
 *  None
 *
 *******************************************************************************
 */
#include <stdio.h>
#include <string.h>
#include "iv_datatypedef.h"
#include "impeg2_macros.h"
#include "impeg2_defs.h"
#include "impeg2_inter_pred.h"

#include <immintrin.h>
#include <emmintrin.h>
#include <smmintrin.h>
#include <tmmintrin.h>

/*******************************************************************************
*  Function Name   : impeg2_copy_mb
*
*  Description     : copies 3 components to the frame from mc_buf
*
*  Arguments       :
*  src_buf         : Source Buffer
*  dst_buf         : Destination Buffer
*  src_wd          : Source Width
*  dst_wd          : destination Width
*
*  Values Returned : None
*******************************************************************************/
void impeg2_copy_mb_sse42(yuv_buf_t *src_buf,
                    yuv_buf_t *dst_buf,
                    UWORD32 src_wd,
                    UWORD32 dst_wd)
{
    UWORD8 *src;
    UWORD8 *dst;
    __m128i src_r0, src_r1, src_r2, src_r3;

/*******************************************************/
    /* copy Y                                              */
    /*******************************************************/
    src = src_buf->pu1_y;
    dst = dst_buf->pu1_y;
    // Row 0-3
    src_r0 = _mm_loadu_si128((__m128i *) (src));
    src_r1 = _mm_loadu_si128((__m128i *) (src + src_wd));
    src_r2 = _mm_loadu_si128((__m128i *) (src + 2 * src_wd));
    src_r3 = _mm_loadu_si128((__m128i *) (src + 3 * src_wd));

_mm_storeu_si128((__m128i *) dst, src_r0);
    _mm_storeu_si128((__m128i *) (dst + dst_wd), src_r1);
    _mm_storeu_si128((__m128i *) (dst + 2 * dst_wd), src_r2);
    _mm_storeu_si128((__m128i *) (dst + 3 * dst_wd), src_r3);

// Row 4-7
    src += 4 * src_wd;
    dst += 4 * dst_wd;
    src_r0 = _mm_loadu_si128((__m128i *) (src));
    src_r1 = _mm_loadu_si128((__m128i *) (src + src_wd));
    src_r2 = _mm_loadu_si128((__m128i *) (src + 2 * src_wd));
    src_r3 = _mm_loadu_si128((__m128i *) (src + 3 * src_wd));

// Row 8-11
    src += 4 * src_wd;
    dst += 4 * dst_wd;
    src_r0 = _mm_loadu_si128((__m128i *) (src));
    src_r1 = _mm_loadu_si128((__m128i *) (src + src_wd));
    src_r2 = _mm_loadu_si128((__m128i *) (src + 2 * src_wd));
    src_r3 = _mm_loadu_si128((__m128i *) (src + 3 * src_wd));

// Row 12-15
    src += 4 * src_wd;
    dst += 4 * dst_wd;
    src_r0 = _mm_loadu_si128((__m128i *) (src));
    src_r1 = _mm_loadu_si128((__m128i *) (src + src_wd));
    src_r2 = _mm_loadu_si128((__m128i *) (src + 2 * src_wd));
    src_r3 = _mm_loadu_si128((__m128i *) (src + 3 * src_wd));

src_wd >>= 1;
    dst_wd >>= 1;

/*******************************************************/
    /* copy U                                              */
    /*******************************************************/
    src = src_buf->pu1_u;
    dst = dst_buf->pu1_u;

// Row 0-3
    src_r0 =  _mm_loadl_epi64((__m128i *)src);
    src_r1 =  _mm_loadl_epi64((__m128i *)(src + src_wd));
    src_r2 =  _mm_loadl_epi64((__m128i *)(src + 2 * src_wd));
    src_r3 =  _mm_loadl_epi64((__m128i *)(src + 3 * src_wd));

_mm_storel_epi64((__m128i *)dst, src_r0);
    _mm_storel_epi64((__m128i *)(dst + dst_wd), src_r1);
    _mm_storel_epi64((__m128i *)(dst + 2 * dst_wd), src_r2);
    _mm_storel_epi64((__m128i *)(dst + 3 * dst_wd), src_r3);

// Row 4-7
    src += 4 * src_wd;
    dst += 4 * dst_wd;

src_r0 =  _mm_loadl_epi64((__m128i *)src);
    src_r1 =  _mm_loadl_epi64((__m128i *)(src + src_wd));
    src_r2 =  _mm_loadl_epi64((__m128i *)(src + 2 * src_wd));
    src_r3 =  _mm_loadl_epi64((__m128i *)(src + 3 * src_wd));

/*******************************************************/
    /* copy V                                              */
    /*******************************************************/
    src = src_buf->pu1_v;
    dst = dst_buf->pu1_v;
    // Row 0-3
    src_r0 =  _mm_loadl_epi64((__m128i *)src);
    src_r1 =  _mm_loadl_epi64((__m128i *)(src + src_wd));
    src_r2 =  _mm_loadl_epi64((__m128i *)(src + 2 * src_wd));
    src_r3 =  _mm_loadl_epi64((__m128i *)(src + 3 * src_wd));

// Row 4-7
    src += 4 * src_wd;
    dst += 4 * dst_wd;

/*****************************************************************************/
/*                                                                           */
/*  Function Name : impeg2_interpolate                                       */
/*                                                                           */
/*  Description   : averages the contents of buf_src1 and buf_src2 and stores*/
/*                  result in buf_dst                                        */
/*                                                                           */
/*  Inputs        : buf_src1 -  First Source                                 */
/*                  buf_src2 -  Second Source                                */
/*                                                                           */
/*  Globals       : None                                                     */
/*                                                                           */
/*  Processing    : Avg the values from two sources and store the result in  */
/*                  destination buffer                                       */
/*                                                                           */
/*  Outputs       : buf_dst  -  Avg of contents of buf_src1 and buf_src2     */
/*                                                                           */
/*  Returns       : None                                                     */
/*                                                                           */
/*  Issues        : Assumes that all 3 buffers are of same size              */
/*                                                                           */
/*****************************************************************************/
void impeg2_interpolate_sse42(yuv_buf_t *buf_src1,
                        yuv_buf_t *buf_src2,
                        yuv_buf_t *buf_dst,
                        UWORD32 stride)
{
    UWORD8 *src1, *src2;
    UWORD8 *dst;
    __m128i src1_r0, src1_r1, src1_r2, src1_r3;
    __m128i src2_r0, src2_r1, src2_r2, src2_r3;

/*******************************************************/
    /* interpolate Y                                       */
    /*******************************************************/
    src1 = buf_src1->pu1_y;
    src2 = buf_src2->pu1_y;
    dst  = buf_dst->pu1_y;
    // Row 0-3
    src1_r0 = _mm_loadu_si128((__m128i *) (src1));
    src1_r1 = _mm_loadu_si128((__m128i *) (src1 + 16));
    src1_r2 = _mm_loadu_si128((__m128i *) (src1 + 2 * 16));
    src1_r3 = _mm_loadu_si128((__m128i *) (src1 + 3 * 16));

src2_r0 = _mm_loadu_si128((__m128i *) (src2));
    src2_r1 = _mm_loadu_si128((__m128i *) (src2 + 16));
    src2_r2 = _mm_loadu_si128((__m128i *) (src2 + 2 * 16));
    src2_r3 = _mm_loadu_si128((__m128i *) (src2 + 3 * 16));