@/*****************************************************************************
@*
@* Copyright (C) 2012 Ittiam Systems Pvt Ltd, Bangalore
@*
@* Licensed under the Apache License, Version 2.0 (the "License");
@* you may not use this file except in compliance with the License.
@* You may obtain a copy of the License at:
@*
@* http://www.apache.org/licenses/LICENSE-2.0
@*
@* Unless required by applicable law or agreed to in writing, software
@* distributed under the License is distributed on an "AS IS" BASIS,
@* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
@* See the License for the specific language governing permissions and
@* limitations under the License.
@*
@*****************************************************************************/
@/**
@ *******************************************************************************
@ * @file
@ *  ihevc_itrans_recon_8x8_neon.s
@ *
@ * @brief
@ *  contains function definitions for single stage  inverse transform
@ *
@ * @author
@ * anand s
@ *
@ * @par list of functions:
@ *  - ihevc_itrans_recon_32x32()
@ *
@ * @remarks
@ *  the input buffer is being corrupted
@ *
@ *******************************************************************************
@*/

@/**
@ *******************************************************************************
@ *
@ * @brief
@ *  this function performs inverse transform  and reconstruction for 8x8
@ * input block
@ *
@ * @par description:
@ *  performs inverse transform and adds the prediction  data and clips output
@ * to 8 bit
@ *
@ * @param[in] pi2_src
@ *  input 16x16 coefficients
@ *
@ * @param[in] pi2_tmp
@ *  temporary 16x16 buffer for storing inverse
@ *
@ *  transform
@ *  1st stage output
@ *
@ * @param[in] pu1_pred
@ *  prediction 16x16 block
@ *
@ * @param[out] pu1_dst
@ *  output 8x8 block
@ *
@ * @param[in] src_strd
@ *  input stride
@ *
@ * @param[in] pred_strd
@ *  prediction stride
@ *
@ * @param[in] dst_strd
@ *  output stride
@ *
@ * @param[in] shift
@ *  output shift
@ *
@ * @param[in] r12
@ *  zero columns in pi2_src
@ *
@ * @returns  void
@ *
@ * @remarks
@ *  none
@ *
@ *******************************************************************************
@ */

@void ihevc_itrans_recon_32x32(word16 *pi2_src,
@                            word16 *pi2_tmp,
@                            uword8 *pu1_pred,
@                            uword8 *pu1_dst,
@                            word32 src_strd,
@                            word32 pred_strd,
@                            word32 dst_strd,
@                            word32 r12
@                            word32 r11             )

@**************variables vs registers*************************
@   r0 => *pi2_src
@   r1 => *pi2_tmp
@   r2 => *pu1_pred
@   r3 => *pu1_dst
@   src_strd
@   pred_strd
@   dst_strd
@   r12
@   r11


@d0[0]= 64      d2[0]=83
@d0[1]= 90      d2[1]=82
@d0[2]= 90      d2[2]=80
@d0[3]= 90      d2[3]=78
@d1[0]= 89      d3[0]=75
@d1[1]= 88      d3[1]=73
@d1[2]= 87      d3[2]=70
@d1[3]= 85      d3[3]=67

@d4[0]= 64      d6[0]=36
@d4[1]= 61      d6[1]=31
@d4[2]= 57      d6[2]=25
@d4[3]= 54      d6[3]=22
@d5[0]= 50      d7[0]=18
@d5[1]= 46      d7[1]=13
@d5[2]= 43      d7[2]=9
@d5[3]= 38      d7[3]=4

.equ    pi2_src_offset,     64
.equ    pi2_tmp_offset,     68
.equ    src_strd_offset,    120
.equ    pred_strd_offset,   124
.equ    dst_strd_offset,    128
.equ    zero_cols_offset,   132
.equ    zero_rows_offset,   136

.text
.align 4





.set shift_stage1_idct ,   7
.set shift_stage2_idct ,   12

@#define zero_cols   r12
@#define zero_rows   r11

.globl ihevc_itrans_recon_32x32_a9q

.extern g_ai2_ihevc_trans_32_transpose

g_ai2_ihevc_trans_32_transpose_addr:
.long g_ai2_ihevc_trans_32_transpose - ulbl1 - 8

r5_addr: .word 0xfffff000
r9_addr: .word 0xffff0000

.type ihevc_itrans_recon_32x32_a9q, %function

ihevc_itrans_recon_32x32_a9q:

    stmfd       sp!,{r0-r12,lr}
    vpush       {d8  -  d15}

    ldr         r6,[sp,#src_strd_offset]    @ src stride
    ldr         r12,[sp,#zero_cols_offset]
    ldr         r11,[sp,#zero_rows_offset]
    mov         r6,r6,lsl #1                @ x sizeof(word16)
    add         r10,r6,r6, lsl #1           @ 3 rows


    mov         r8,r0

    ldr         r14,g_ai2_ihevc_trans_32_transpose_addr
ulbl1:
    add         r14,r14,pc
    vld1.16     {d0,d1,d2,d3},[r14]!
    vld1.16     {d4,d5,d6,d7},[r14]!

@registers which are free
@  r10,r9,r11,r12
    mov         r9,#0xffffff00
    mov         r10,#0xfffffff0
    ldr         r5,r5_addr
    ldr         r7,r9_addr
    cmp         r12,r10
    movhs       r14,#1
    bhs         stage1


    cmp         r12,r9
    movhs       r14,#2
    bhs         stage1

    cmp         r12,r5
    movhs       r14,#3
    bhs         stage1

    cmp         r12,r7
    movhs       r14,#4

    mov         r14,#8
    b           stage1
@.ltorg


dct_stage1:
    add         r8,r8,#8
    mov         r0,r8

stage1:
    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6

    vmull.s16   q12,d8,d0[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d0[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d0[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d2[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d0[2]


    vmull.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d1[2]

    vmull.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d2[2]

    vmull.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d3[2]
    cmp         r11,r10
    bhs         shift1

    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6







    vmlal.s16   q12,d14,d1[1]
    vmlal.s16   q13,d14,d3[3]
    vmlal.s16   q14,d14,d6[1]
    vmlsl.s16   q15,d14,d7[1]


    vmlal.s16   q12,d15,d1[3]
    vmlal.s16   q13,d15,d5[1]
    vmlsl.s16   q14,d15,d7[1]
    vmlsl.s16   q15,d15,d3[3]


    vmlal.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d1[2]
    vmlal.s16   q11,d12,d3[0]
    vmlal.s16   q11,d13,d4[2]
    vmlal.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d7[2]
    vmlal.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d5[2]

    cmp         r11,r9
    bhs         shift1

    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6


    vmlal.s16   q12,d8,d2[1]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d4[3]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d0[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d7[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d3[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d2[0]
    vmlal.s16   q10,d11,d2[2]


    vmlal.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d7[2]

    vmlsl.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d3[2]

    vmlsl.s16   q9,d10,d2[0]
    vmlsl.s16   q9,d11,d1[2]

    cmp         r11,r5
    bhs         shift1


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6









    vmlal.s16   q12,d14,d3[1]
    vmlsl.s16   q13,d14,d6[1]
    vmlsl.s16   q14,d14,d0[1]
    vmlsl.s16   q15,d14,d6[3]


    vmlal.s16   q12,d15,d3[3]
    vmlsl.s16   q13,d15,d4[3]
    vmlsl.s16   q14,d15,d2[3]
    vmlal.s16   q15,d15,d5[3]


    vmlal.s16   q10,d12,d3[0]
    vmlal.s16   q10,d13,d3[2]
    vmlsl.s16   q11,d12,d7[0]
    vmlsl.s16   q11,d13,d5[2]
    vmlsl.s16   q8,d12,d1[0]
    vmlsl.s16   q8,d13,d1[2]
    vmlsl.s16   q9,d12,d5[0]
    vmlal.s16   q9,d13,d7[2]

    cmp         r11,r7
    bhs         shift1


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6



    vmlal.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d3[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d2[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d4[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d7[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d4[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d2[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d6[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d0[2]



    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6




    vmlal.s16   q12,d14,d5[1]
    vmlsl.s16   q13,d14,d0[2]
    vmlal.s16   q14,d14,d5[3]
    vmlal.s16   q15,d14,d4[3]


    vmlal.s16   q12,d15,d5[3]
    vmlsl.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d3[1]
    vmlsl.s16   q15,d15,d7[3]


    vmlal.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d5[2]
    vmlsl.s16   q11,d12,d1[0]
    vmlsl.s16   q11,d13,d0[2]
    vmlal.s16   q8,d12,d7[0]
    vmlal.s16   q8,d13,d4[2]
    vmlal.s16   q9,d12,d3[0]
    vmlal.s16   q9,d13,d6[2]


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6







    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d0[1]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d4[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d1[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d0[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d6[2]


    vmlsl.s16   q11,d10,d2[0]
    vmlsl.s16   q11,d11,d3[2]

    vmlal.s16   q8,d10,d2[0]
    vmlal.s16   q8,d11,d0[2]

    vmlsl.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d2[2]

    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6


    vmlal.s16   q12,d14,d7[1]
    vmlsl.s16   q13,d14,d5[3]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d2[3]


    vmlal.s16   q12,d15,d7[3]
    vmlsl.s16   q13,d15,d7[1]
    vmlal.s16   q14,d15,d6[3]
    vmlsl.s16   q15,d15,d6[1]


    vmlal.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d7[2]
    vmlsl.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d6[2]
    vmlal.s16   q8,d12,d3[0]
    vmlal.s16   q8,d13,d5[2]
    vmlsl.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d4[2]



shift1:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage1_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d19,q5,#shift_stage1_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d31,q7,#shift_stage1_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d18,q13,#shift_stage1_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d12,q6,#shift_stage1_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d15,q12,#shift_stage1_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d13,q8,#shift_stage1_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d14,q14,#shift_stage1_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage1_idct)


    @ registers used q15,q14,q6,q7


    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


@ d30 =r0 1- 4 values
@ d31 =r2 1- 4 values
@ d12=r1 1- 4 values
@ d13=r3 1- 4 values
@ d14 =r0 28-31 values
@ d15 =r2 28- 31 values
@ d18=r1 28- 31 values
@ d19=r3 28- 31 values



    vst1.16     {q15},[r1]!
    vst1.16     {q6},[r1]!
    add         r1,r1,#192
    vst1.16     {q7},[r1]!
    vst1.16     {q9},[r1]!
    sub         r1,r1,#224

    mov         r0,r8





    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6




    vmull.s16   q12,d8,d2[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d3[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d7[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d4[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d4[2]


    vmull.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d5[2]

    vmull.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d6[2]

    vmull.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d7[2]
    cmp         r11,r10
    bhs         shift2

    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6


    vmlsl.s16   q12,d14,d4[3]
    vmlsl.s16   q13,d14,d2[1]
    vmlsl.s16   q14,d14,d0[1]
    vmlsl.s16   q15,d14,d2[3]


    vmlsl.s16   q12,d15,d0[3]
    vmlsl.s16   q13,d15,d3[1]
    vmlsl.s16   q14,d15,d6[3]
    vmlal.s16   q15,d15,d5[3]


    vmlsl.s16   q10,d12,d7[0]
    vmlsl.s16   q10,d13,d2[2]
    vmlsl.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d0[2]
    vmlsl.s16   q8,d12,d3[0]
    vmlsl.s16   q8,d13,d3[2]
    vmlsl.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d6[2]

    cmp         r11,r9
    bhs         shift2


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6







    vmlsl.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d7[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d2[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d7[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d6[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d2[0]
    vmlsl.s16   q10,d11,d6[2]


    vmlsl.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d4[2]

    vmlal.s16   q8,d10,d6[0]
    vmlal.s16   q8,d11,d0[2]

    vmlal.s16   q9,d10,d2[0]
    vmlal.s16   q9,d11,d5[2]

    cmp         r11,r5
    bhs         shift2


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6





    vmlal.s16   q12,d14,d2[3]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d5[3]
    vmlsl.s16   q15,d14,d0[3]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d6[3]
    vmlsl.s16   q14,d15,d0[3]
    vmlal.s16   q15,d15,d7[3]


    vmlal.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d0[2]
    vmlal.s16   q11,d12,d1[0]
    vmlal.s16   q11,d13,d6[2]
    vmlal.s16   q8,d12,d7[0]
    vmlsl.s16   q8,d13,d2[2]
    vmlsl.s16   q9,d12,d3[0]
    vmlsl.s16   q9,d13,d4[2]


    cmp         r11,r7
    bhs         shift2


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6







    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d1[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d7[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d0[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d5[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d7[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d7[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d1[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d5[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d3[2]



    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6


    vmlsl.s16   q12,d14,d0[1]
    vmlal.s16   q13,d14,d6[1]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d1[1]


    vmlsl.s16   q12,d15,d3[3]
    vmlal.s16   q13,d15,d0[1]
    vmlsl.s16   q14,d15,d5[1]
    vmlsl.s16   q15,d15,d6[1]


    vmlsl.s16   q10,d12,d3[0]
    vmlsl.s16   q10,d13,d1[2]
    vmlsl.s16   q11,d12,d7[0]
    vmlal.s16   q11,d13,d3[2]
    vmlal.s16   q8,d12,d1[0]
    vmlal.s16   q8,d13,d7[2]
    vmlsl.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d2[2]

    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6




    vmlal.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d4[3]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d2[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d3[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d7[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d5[2]


    vmlal.s16   q11,d10,d2[0]
    vmlal.s16   q11,d11,d7[2]

    vmlsl.s16   q8,d10,d2[0]
    vmlsl.s16   q8,d11,d4[2]

    vmlal.s16   q9,d10,d6[0]
    vmlal.s16   q9,d11,d1[2]


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6





    vmlal.s16   q12,d14,d1[1]
    vmlsl.s16   q13,d14,d0[3]
    vmlal.s16   q14,d14,d1[3]
    vmlsl.s16   q15,d14,d3[1]


    vmlal.s16   q12,d15,d5[3]
    vmlsl.s16   q13,d15,d5[1]
    vmlal.s16   q14,d15,d4[3]
    vmlsl.s16   q15,d15,d4[1]


    vmlal.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d3[2]
    vmlsl.s16   q11,d12,d3[0]
    vmlsl.s16   q11,d13,d2[2]
    vmlal.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d1[2]
    vmlsl.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d0[2]

shift2:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage1_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d19,q5,#shift_stage1_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d31,q7,#shift_stage1_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d18,q13,#shift_stage1_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d12,q6,#shift_stage1_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d15,q12,#shift_stage1_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d13,q8,#shift_stage1_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d14,q14,#shift_stage1_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage1_idct)

    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r1]!
    vst1.16     {q6},[r1]!
    add         r1,r1,#128
    vst1.16     {q7},[r1]!
    vst1.16     {q9},[r1]!
    sub         r1,r1,#160
    mov         r0,r8



    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6


    vmull.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d4[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d5[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d3[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d0[2]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d7[2]


    vmull.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d6[2]

    vmull.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d5[2]

    vmull.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d4[2]

    cmp         r11,r10
    bhs         shift3

    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6




    vmlsl.s16   q12,d14,d5[1]
    vmlsl.s16   q13,d14,d7[3]
    vmlal.s16   q14,d14,d5[3]
    vmlal.s16   q15,d14,d3[1]


    vmlal.s16   q12,d15,d2[1]
    vmlal.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d4[3]
    vmlsl.s16   q15,d15,d7[3]


    vmlsl.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d6[2]
    vmlsl.s16   q11,d12,d3[0]
    vmlal.s16   q11,d13,d3[2]
    vmlsl.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d0[2]
    vmlsl.s16   q9,d12,d7[0]
    vmlal.s16   q9,d13,d2[2]

    cmp         r11,r9
    bhs         shift3

    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6

    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d5[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d0[3]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d1[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d0[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d2[0]
    vmlsl.s16   q10,d11,d5[2]


    vmlal.s16   q11,d10,d6[0]
    vmlsl.s16   q11,d11,d0[2]

    vmlsl.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d4[2]

    vmlsl.s16   q9,d10,d2[0]
    vmlal.s16   q9,d11,d6[2]

    cmp         r11,r5
    bhs         shift3


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6






    vmlsl.s16   q12,d14,d7[1]
    vmlal.s16   q13,d14,d2[1]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d5[1]


    vmlal.s16   q12,d15,d0[3]
    vmlal.s16   q13,d15,d7[1]
    vmlsl.s16   q14,d15,d1[1]
    vmlsl.s16   q15,d15,d6[1]


    vmlsl.s16   q10,d12,d3[0]
    vmlal.s16   q10,d13,d4[2]
    vmlal.s16   q11,d12,d7[0]
    vmlal.s16   q11,d13,d2[2]
    vmlal.s16   q8,d12,d1[0]
    vmlsl.s16   q8,d13,d6[2]
    vmlal.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d0[2]


    cmp         r11,r7
    bhs         shift3


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6


    vmlsl.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d0[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d6[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d0[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d2[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d3[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d5[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d1[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d7[2]


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6



    vmlal.s16   q12,d14,d6[3]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d1[3]
    vmlal.s16   q15,d14,d7[1]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d2[3]
    vmlal.s16   q14,d15,d7[1]
    vmlal.s16   q15,d15,d4[1]


    vmlsl.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d2[2]
    vmlal.s16   q11,d12,d1[0]
    vmlsl.s16   q11,d13,d7[2]
    vmlsl.s16   q8,d12,d7[0]
    vmlsl.s16   q8,d13,d3[2]
    vmlsl.s16   q9,d12,d3[0]
    vmlal.s16   q9,d13,d1[2]



    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6




    vmlsl.s16   q12,d8,d5[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d3[1]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d0[1]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d0[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d4[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d6[0]
    vmlsl.s16   q10,d11,d1[2]


    vmlsl.s16   q11,d10,d2[0]
    vmlal.s16   q11,d11,d4[2]

    vmlal.s16   q8,d10,d2[0]
    vmlsl.s16   q8,d11,d7[2]

    vmlsl.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d5[2]


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6

    vmlal.s16   q12,d14,d4[3]
    vmlsl.s16   q13,d14,d6[1]
    vmlal.s16   q14,d14,d7[3]
    vmlal.s16   q15,d14,d6[3]


    vmlal.s16   q12,d15,d3[3]
    vmlsl.s16   q13,d15,d3[1]
    vmlal.s16   q14,d15,d2[3]
    vmlsl.s16   q15,d15,d2[1]


    vmlsl.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d0[2]
    vmlal.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d1[2]
    vmlsl.s16   q8,d12,d3[0]
    vmlal.s16   q8,d13,d2[2]
    vmlal.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d3[2]

shift3:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage1_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d19,q5,#shift_stage1_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d31,q7,#shift_stage1_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d18,q13,#shift_stage1_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d12,q6,#shift_stage1_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d15,q12,#shift_stage1_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d13,q8,#shift_stage1_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d14,q14,#shift_stage1_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage1_idct)

    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r1]!
    vst1.16     {q6},[r1]!
    add         r1,r1,#64
    vst1.16     {q7},[r1]!
    vst1.16     {q9},[r1]!
    sub         r1,r1,#96

    mov         r0,r8



    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6


    vmull.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d7[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d7[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d5[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d7[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d3[2]


    vmull.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d2[2]

    vmull.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d1[2]

    vmull.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d0[2]

    cmp         r11,r10
    bhs         shift4

    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6






    vmlal.s16   q12,d14,d0[1]
    vmlal.s16   q13,d14,d1[3]
    vmlal.s16   q14,d14,d4[1]
    vmlal.s16   q15,d14,d6[3]


    vmlsl.s16   q12,d15,d4[1]
    vmlsl.s16   q13,d15,d0[3]
    vmlsl.s16   q14,d15,d2[3]
    vmlsl.s16   q15,d15,d6[1]


    vmlal.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d5[2]
    vmlal.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d7[2]
    vmlal.s16   q8,d12,d3[0]
    vmlsl.s16   q8,d13,d4[2]
    vmlal.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d1[2]

    cmp         r11,r9
    bhs         shift4

    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6



    vmlal.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d3[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d5[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d4[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d0[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d2[0]
    vmlal.s16   q10,d11,d1[2]


    vmlsl.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d3[2]

    vmlal.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d7[2]

    vmlal.s16   q9,d10,d2[0]
    vmlsl.s16   q9,d11,d2[2]

    cmp         r11,r5
    bhs         shift4


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6






    vmlsl.s16   q12,d14,d1[1]
    vmlsl.s16   q13,d14,d7[3]
    vmlal.s16   q14,d14,d1[3]
    vmlal.s16   q15,d14,d4[3]


    vmlal.s16   q12,d15,d2[1]
    vmlal.s16   q13,d15,d5[1]
    vmlsl.s16   q14,d15,d3[1]
    vmlsl.s16   q15,d15,d4[1]


    vmlsl.s16   q10,d12,d5[0]
    vmlsl.s16   q10,d13,d7[2]
    vmlsl.s16   q11,d12,d1[0]
    vmlal.s16   q11,d13,d1[2]
    vmlsl.s16   q8,d12,d7[0]
    vmlal.s16   q8,d13,d5[2]
    vmlal.s16   q9,d12,d3[0]
    vmlsl.s16   q9,d13,d3[2]

    cmp         r11,r7
    bhs         shift4


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6


    vmlsl.s16   q12,d8,d5[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d4[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d0[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d3[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d0[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d6[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d2[2]

    vmlal.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d4[2]




    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6






    vmlal.s16   q12,d14,d3[1]
    vmlsl.s16   q13,d14,d2[1]
    vmlal.s16   q14,d14,d7[3]
    vmlal.s16   q15,d14,d2[3]


    vmlsl.s16   q12,d15,d0[3]
    vmlal.s16   q13,d15,d4[3]
    vmlal.s16   q14,d15,d6[3]
    vmlsl.s16   q15,d15,d2[1]


    vmlal.s16   q10,d12,d3[0]
    vmlsl.s16   q10,d13,d6[2]
    vmlal.s16   q11,d12,d7[0]
    vmlsl.s16   q11,d13,d4[2]
    vmlsl.s16   q8,d12,d1[0]
    vmlal.s16   q8,d13,d0[2]
    vmlal.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d5[2]


    vld1.16     d10,[r0],r6
    vld1.16     d8,[r0],r6
    vld1.16     d11,[r0],r6
    vld1.16     d9,[r0],r6





    vmlal.s16   q12,d8,d3[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d7[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d7[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d6[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d2[2]


    vmlal.s16   q11,d10,d2[0]
    vmlsl.s16   q11,d11,d0[2]

    vmlsl.s16   q8,d10,d2[0]
    vmlal.s16   q8,d11,d3[2]

    vmlal.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d6[2]


    vld1.16     d12,[r0],r6
    vld1.16     d14,[r0],r6
    vld1.16     d13,[r0],r6
    vld1.16     d15,[r0],r6




    vmlsl.s16   q12,d14,d5[1]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d2[1]
    vmlal.s16   q15,d14,d0[3]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d0[3]
    vmlsl.s16   q15,d15,d0[1]


    vmlsl.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d4[2]
    vmlal.s16   q11,d12,d3[0]
    vmlsl.s16   q11,d13,d5[2]
    vmlsl.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d6[2]
    vmlal.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d7[2]

shift4:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage1_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d19,q5,#shift_stage1_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d31,q7,#shift_stage1_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d18,q13,#shift_stage1_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d12,q6,#shift_stage1_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d15,q12,#shift_stage1_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d13,q8,#shift_stage1_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage1_idct)
    vqrshrn.s32 d14,q14,#shift_stage1_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage1_idct)

    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r1]!
    vst1.16     {q6},[r1]!
    vst1.16     {q7},[r1]!
    vst1.16     {q9},[r1]!

    add         r1,r1,#96

    subs        r14,r14,#1
    bne         dct_stage1
second_stage_dct:
@   mov     r0,r1
    ldr         r0,[sp,#pi2_src_offset]
    ldr         r1,[sp,#pi2_tmp_offset]
    ldr         r8,[sp,#pred_strd_offset]   @ prediction stride
    ldr         r7,[sp,#dst_strd_offset]    @ destination stride

@   add r4,r2,r8, lsl #1    @ r4 = r2 + pred_strd * 2    => r4 points to 3rd row of pred data
@   add r5,r8,r8, lsl #1    @
@   sub   r0,r0,#512
    mov         r11,#0xfffffff0
    mov         r5, #0xffffff00
    ldr         r6,r5_addr
    ldr         r9,r9_addr
@   sub     r1,r1,#2048
    mov         r4,r1
    mov         r10,#240
    mov         r14,#8
    b           stage2

@ registers free :

@ arm registers used
@ r8 : predicition stride
@ r7 : destination stride
@ r1: temp buffer
@ r2 : pred buffer
@ r3 : destination buffer
@ r14 : loop counter
@r0 : scratch buffer
@r10 : used as stride
@ r4 : used to store the initial address
@r12 : zero cols
@ r11 : 0xfffffff0
@ r5 : 0xffffff00
dct_stage2:
    add         r4,r4,#32
    mov         r1,r4
stage2:
    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10

    vmull.s16   q12,d8,d0[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d0[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d0[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d2[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)



    vmull.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d0[2]


    vmull.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d1[2]

    vmull.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d2[2]

    vmull.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d3[2]
    cmp         r12,r11
    bhs         stage2_shift1

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10






    vmlal.s16   q12,d14,d1[1]
    vmlal.s16   q13,d14,d3[3]
    vmlal.s16   q14,d14,d6[1]
    vmlsl.s16   q15,d14,d7[1]


    vmlal.s16   q12,d15,d1[3]
    vmlal.s16   q13,d15,d5[1]
    vmlsl.s16   q14,d15,d7[1]
    vmlsl.s16   q15,d15,d3[3]


    vmlal.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d1[2]
    vmlal.s16   q11,d12,d3[0]
    vmlal.s16   q11,d13,d4[2]
    vmlal.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d7[2]
    vmlal.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d5[2]
    cmp         r12,r5
    bhs         stage2_shift1

    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10

    vmlal.s16   q12,d8,d2[1]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d4[3]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d0[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d7[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d3[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d2[0]
    vmlal.s16   q10,d11,d2[2]


    vmlal.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d7[2]

    vmlsl.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d3[2]

    vmlsl.s16   q9,d10,d2[0]
    vmlsl.s16   q9,d11,d1[2]

    cmp         r12,r6
    bhs         stage2_shift1


    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10





    vmlal.s16   q12,d14,d3[1]
    vmlsl.s16   q13,d14,d6[1]
    vmlsl.s16   q14,d14,d0[1]
    vmlsl.s16   q15,d14,d6[3]


    vmlal.s16   q12,d15,d3[3]
    vmlsl.s16   q13,d15,d4[3]
    vmlsl.s16   q14,d15,d2[3]
    vmlal.s16   q15,d15,d5[3]


    vmlal.s16   q10,d12,d3[0]
    vmlal.s16   q10,d13,d3[2]
    vmlsl.s16   q11,d12,d7[0]
    vmlsl.s16   q11,d13,d5[2]
    vmlsl.s16   q8,d12,d1[0]
    vmlsl.s16   q8,d13,d1[2]
    vmlsl.s16   q9,d12,d5[0]
    vmlal.s16   q9,d13,d7[2]

    cmp         r12,r9
    bhs         stage2_shift1


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmlal.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d3[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d2[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d4[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d7[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d4[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d2[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d6[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d0[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10





    vmlal.s16   q12,d14,d5[1]
    vmlsl.s16   q13,d14,d0[2]
    vmlal.s16   q14,d14,d5[3]
    vmlal.s16   q15,d14,d4[3]


    vmlal.s16   q12,d15,d5[3]
    vmlsl.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d3[1]
    vmlsl.s16   q15,d15,d7[3]


    vmlal.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d5[2]
    vmlsl.s16   q11,d12,d1[0]
    vmlsl.s16   q11,d13,d0[2]
    vmlal.s16   q8,d12,d7[0]
    vmlal.s16   q8,d13,d4[2]
    vmlal.s16   q9,d12,d3[0]
    vmlal.s16   q9,d13,d6[2]


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10




    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d0[1]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d4[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d1[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d0[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d6[2]


    vmlsl.s16   q11,d10,d2[0]
    vmlsl.s16   q11,d11,d3[2]

    vmlal.s16   q8,d10,d2[0]
    vmlal.s16   q8,d11,d0[2]

    vmlsl.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d2[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10

    vmlal.s16   q12,d14,d7[1]
    vmlsl.s16   q13,d14,d5[3]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d2[3]


    vmlal.s16   q12,d15,d7[3]
    vmlsl.s16   q13,d15,d7[1]
    vmlal.s16   q14,d15,d6[3]
    vmlsl.s16   q15,d15,d6[1]


    vmlal.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d7[2]
    vmlsl.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d6[2]
    vmlal.s16   q8,d12,d3[0]
    vmlal.s16   q8,d13,d5[2]
    vmlsl.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d4[2]

stage2_shift1:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage2_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d19,q5,#shift_stage2_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d31,q7,#shift_stage2_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d18,q13,#shift_stage2_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d12,q6,#shift_stage2_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d15,q12,#shift_stage2_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d13,q8,#shift_stage2_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d14,q14,#shift_stage2_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage2_idct)


    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r0]!
    vst1.16     {q6},[r0]!
    vst1.16     {q7},[r0]!
    vst1.16     {q9},[r0]!


    mov         r1,r4






    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmull.s16   q12,d8,d2[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d3[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d7[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d4[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlal.s16   q10,d11,d4[2]


    vmull.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d5[2]

    vmull.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d6[2]

    vmull.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d7[2]

    cmp         r12,r11
    bhs         stage2_shift2

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10


    vmlsl.s16   q12,d14,d4[3]
    vmlsl.s16   q13,d14,d2[1]
    vmlsl.s16   q14,d14,d0[1]
    vmlsl.s16   q15,d14,d2[3]


    vmlsl.s16   q12,d15,d0[3]
    vmlsl.s16   q13,d15,d3[1]
    vmlsl.s16   q14,d15,d6[3]
    vmlal.s16   q15,d15,d5[3]


    vmlsl.s16   q10,d12,d7[0]
    vmlsl.s16   q10,d13,d2[2]
    vmlsl.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d0[2]
    vmlsl.s16   q8,d12,d3[0]
    vmlsl.s16   q8,d13,d3[2]
    vmlsl.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d6[2]

    cmp         r12,r5
    bhs         stage2_shift2

    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10





    vmlsl.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d7[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d2[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d7[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d6[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d2[0]
    vmlsl.s16   q10,d11,d6[2]


    vmlsl.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d4[2]

    vmlal.s16   q8,d10,d6[0]
    vmlal.s16   q8,d11,d0[2]

    vmlal.s16   q9,d10,d2[0]
    vmlal.s16   q9,d11,d5[2]

    cmp         r12,r6
    bhs         stage2_shift2


    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10






    vmlal.s16   q12,d14,d2[3]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d5[3]
    vmlsl.s16   q15,d14,d0[3]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d6[3]
    vmlsl.s16   q14,d15,d0[3]
    vmlal.s16   q15,d15,d7[3]


    vmlal.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d0[2]
    vmlal.s16   q11,d12,d1[0]
    vmlal.s16   q11,d13,d6[2]
    vmlal.s16   q8,d12,d7[0]
    vmlsl.s16   q8,d13,d2[2]
    vmlsl.s16   q9,d12,d3[0]
    vmlsl.s16   q9,d13,d4[2]

    cmp         r12,r9
    bhs         stage2_shift2


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10



    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d1[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d7[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d0[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d5[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d7[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d7[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d1[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d5[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d3[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10




    vmlsl.s16   q12,d14,d0[1]
    vmlal.s16   q13,d14,d6[1]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d1[1]


    vmlsl.s16   q12,d15,d3[3]
    vmlal.s16   q13,d15,d0[1]
    vmlsl.s16   q14,d15,d5[1]
    vmlsl.s16   q15,d15,d6[1]


    vmlsl.s16   q10,d12,d3[0]
    vmlsl.s16   q10,d13,d1[2]
    vmlsl.s16   q11,d12,d7[0]
    vmlal.s16   q11,d13,d3[2]
    vmlal.s16   q8,d12,d1[0]
    vmlal.s16   q8,d13,d7[2]
    vmlsl.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d2[2]


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmlal.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d4[3]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d2[1]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d3[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d7[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d5[2]


    vmlal.s16   q11,d10,d2[0]
    vmlal.s16   q11,d11,d7[2]

    vmlsl.s16   q8,d10,d2[0]
    vmlsl.s16   q8,d11,d4[2]

    vmlal.s16   q9,d10,d6[0]
    vmlal.s16   q9,d11,d1[2]


    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10



    vmlal.s16   q12,d14,d1[1]
    vmlsl.s16   q13,d14,d0[3]
    vmlal.s16   q14,d14,d1[3]
    vmlsl.s16   q15,d14,d3[1]


    vmlal.s16   q12,d15,d5[3]
    vmlsl.s16   q13,d15,d5[1]
    vmlal.s16   q14,d15,d4[3]
    vmlsl.s16   q15,d15,d4[1]


    vmlal.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d3[2]
    vmlsl.s16   q11,d12,d3[0]
    vmlsl.s16   q11,d13,d2[2]
    vmlal.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d1[2]
    vmlsl.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d0[2]

stage2_shift2:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage2_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d19,q5,#shift_stage2_idct   @// r7 = (a0 - b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d31,q7,#shift_stage2_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d18,q13,#shift_stage2_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d12,q6,#shift_stage2_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d15,q12,#shift_stage2_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d13,q8,#shift_stage2_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d14,q14,#shift_stage2_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage2_idct)

    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r0]!
    vst1.16     {q6},[r0]!
    vst1.16     {q7},[r0]!
    vst1.16     {q9},[r0]!



    mov         r1,r4




    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10

    vmull.s16   q12,d8,d4[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d4[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d5[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d3[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d1[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d0[2]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d7[2]


    vmull.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d6[2]

    vmull.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d5[2]

    vmull.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d4[2]

    cmp         r12,r11
    bhs         stage2_shift3

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10

    vmlsl.s16   q12,d14,d5[1]
    vmlsl.s16   q13,d14,d7[3]
    vmlal.s16   q14,d14,d5[3]
    vmlal.s16   q15,d14,d3[1]


    vmlal.s16   q12,d15,d2[1]
    vmlal.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d4[3]
    vmlsl.s16   q15,d15,d7[3]


    vmlsl.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d6[2]
    vmlsl.s16   q11,d12,d3[0]
    vmlal.s16   q11,d13,d3[2]
    vmlsl.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d0[2]
    vmlsl.s16   q9,d12,d7[0]
    vmlal.s16   q9,d13,d2[2]

    cmp         r12,r5
    bhs         stage2_shift3

    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10



    vmlal.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d5[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d0[3]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d1[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d0[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d2[0]
    vmlsl.s16   q10,d11,d5[2]


    vmlal.s16   q11,d10,d6[0]
    vmlsl.s16   q11,d11,d0[2]

    vmlsl.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d4[2]

    vmlsl.s16   q9,d10,d2[0]
    vmlal.s16   q9,d11,d6[2]

    cmp         r12,r6
    bhs         stage2_shift3

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10





    vmlsl.s16   q12,d14,d7[1]
    vmlal.s16   q13,d14,d2[1]
    vmlal.s16   q14,d14,d4[1]
    vmlsl.s16   q15,d14,d5[1]


    vmlal.s16   q12,d15,d0[3]
    vmlal.s16   q13,d15,d7[1]
    vmlsl.s16   q14,d15,d1[1]
    vmlsl.s16   q15,d15,d6[1]


    vmlsl.s16   q10,d12,d3[0]
    vmlal.s16   q10,d13,d4[2]
    vmlal.s16   q11,d12,d7[0]
    vmlal.s16   q11,d13,d2[2]
    vmlal.s16   q8,d12,d1[0]
    vmlsl.s16   q8,d13,d6[2]
    vmlal.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d0[2]

    cmp         r12,r9
    bhs         stage2_shift3


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmlsl.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d0[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d6[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d0[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d2[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d3[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d5[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d1[2]

    vmlal.s16   q9,d10,d0[0]
    vmlal.s16   q9,d11,d7[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10




    vmlal.s16   q12,d14,d6[3]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d1[3]
    vmlal.s16   q15,d14,d7[1]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d2[3]
    vmlal.s16   q14,d15,d7[1]
    vmlal.s16   q15,d15,d4[1]


    vmlsl.s16   q10,d12,d5[0]
    vmlal.s16   q10,d13,d2[2]
    vmlal.s16   q11,d12,d1[0]
    vmlsl.s16   q11,d13,d7[2]
    vmlsl.s16   q8,d12,d7[0]
    vmlsl.s16   q8,d13,d3[2]
    vmlsl.s16   q9,d12,d3[0]
    vmlal.s16   q9,d13,d1[2]


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmlsl.s16   q12,d8,d5[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d3[1]                @// y1 * sin3(part of b2)
    vmlsl.s16   q15,d8,d0[1]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d0[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d2[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlal.s16   q15,d9,d4[3]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d6[0]
    vmlsl.s16   q10,d11,d1[2]


    vmlsl.s16   q11,d10,d2[0]
    vmlal.s16   q11,d11,d4[2]

    vmlal.s16   q8,d10,d2[0]
    vmlsl.s16   q8,d11,d7[2]

    vmlsl.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d5[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10



    vmlal.s16   q12,d14,d4[3]
    vmlsl.s16   q13,d14,d6[1]
    vmlal.s16   q14,d14,d7[3]
    vmlal.s16   q15,d14,d6[3]


    vmlal.s16   q12,d15,d3[3]
    vmlsl.s16   q13,d15,d3[1]
    vmlal.s16   q14,d15,d2[3]
    vmlsl.s16   q15,d15,d2[1]


    vmlsl.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d0[2]
    vmlal.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d1[2]
    vmlsl.s16   q8,d12,d3[0]
    vmlal.s16   q8,d13,d2[2]
    vmlal.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d3[2]

stage2_shift3:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage2_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d19,q5,#shift_stage2_idct   @// r11 = (a0 - b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d31,q7,#shift_stage2_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d18,q13,#shift_stage2_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d12,q6,#shift_stage2_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d15,q12,#shift_stage2_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d13,q8,#shift_stage2_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d14,q14,#shift_stage2_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage2_idct)

    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19


    vst1.16     {q15},[r0]!
    vst1.16     {q6},[r0]!
    vst1.16     {q7},[r0]!
    vst1.16     {q9},[r0]!




    mov         r1,r4




    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmull.s16   q12,d8,d6[1]                @// y1 * cos1(part of b0)
    vmull.s16   q13,d8,d6[3]                @// y1 * cos3(part of b1)
    vmull.s16   q14,d8,d7[1]                @// y1 * sin3(part of b2)
    vmull.s16   q15,d8,d7[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d2[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d4[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d5[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d7[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmull.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d3[2]


    vmull.s16   q11,d10,d0[0]
    vmlsl.s16   q11,d11,d2[2]

    vmull.s16   q8,d10,d0[0]
    vmlsl.s16   q8,d11,d1[2]

    vmull.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d0[2]

    cmp         r12,r11
    bhs         stage2_shift4
    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10






    vmlal.s16   q12,d14,d0[1]
    vmlal.s16   q13,d14,d1[3]
    vmlal.s16   q14,d14,d4[1]
    vmlal.s16   q15,d14,d6[3]


    vmlsl.s16   q12,d15,d4[1]
    vmlsl.s16   q13,d15,d0[3]
    vmlsl.s16   q14,d15,d2[3]
    vmlsl.s16   q15,d15,d6[1]


    vmlal.s16   q10,d12,d7[0]
    vmlal.s16   q10,d13,d5[2]
    vmlal.s16   q11,d12,d5[0]
    vmlsl.s16   q11,d13,d7[2]
    vmlal.s16   q8,d12,d3[0]
    vmlsl.s16   q8,d13,d4[2]
    vmlal.s16   q9,d12,d1[0]
    vmlsl.s16   q9,d13,d1[2]

    cmp         r12,r5
    bhs         stage2_shift4

    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10



    vmlal.s16   q12,d8,d7[3]                @// y1 * cos1(part of b0)
    vmlal.s16   q13,d8,d3[1]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d1[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d5[3]                @// y1 * sin1(part of b3)

    vmlal.s16   q12,d9,d4[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d5[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d0[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d5[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d2[0]
    vmlal.s16   q10,d11,d1[2]


    vmlsl.s16   q11,d10,d6[0]
    vmlal.s16   q11,d11,d3[2]

    vmlal.s16   q8,d10,d6[0]
    vmlsl.s16   q8,d11,d7[2]

    vmlal.s16   q9,d10,d2[0]
    vmlsl.s16   q9,d11,d2[2]

    cmp         r12,r6
    bhs         stage2_shift4


    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10






    vmlsl.s16   q12,d14,d1[1]
    vmlsl.s16   q13,d14,d7[3]
    vmlal.s16   q14,d14,d1[3]
    vmlal.s16   q15,d14,d4[3]


    vmlal.s16   q12,d15,d2[1]
    vmlal.s16   q13,d15,d5[1]
    vmlsl.s16   q14,d15,d3[1]
    vmlsl.s16   q15,d15,d4[1]


    vmlsl.s16   q10,d12,d5[0]
    vmlsl.s16   q10,d13,d7[2]
    vmlsl.s16   q11,d12,d1[0]
    vmlal.s16   q11,d13,d1[2]
    vmlsl.s16   q8,d12,d7[0]
    vmlal.s16   q8,d13,d5[2]
    vmlal.s16   q9,d12,d3[0]
    vmlsl.s16   q9,d13,d3[2]

    cmp         r12,r9
    bhs         stage2_shift4


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10


    vmlsl.s16   q12,d8,d5[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d2[3]                @// y1 * cos3(part of b1)
    vmlal.s16   q14,d8,d4[3]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d3[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d6[3]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlal.s16   q13,d9,d0[3]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlsl.s16   q14,d9,d6[1]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d3[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlal.s16   q10,d10,d0[0]
    vmlsl.s16   q10,d11,d0[2]


    vmlsl.s16   q11,d10,d0[0]
    vmlal.s16   q11,d11,d6[2]

    vmlsl.s16   q8,d10,d0[0]
    vmlal.s16   q8,d11,d2[2]

    vmlal.s16   q9,d10,d0[0]
    vmlsl.s16   q9,d11,d4[2]

    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10




    vmlal.s16   q12,d14,d3[1]
    vmlsl.s16   q13,d14,d2[1]
    vmlal.s16   q14,d14,d7[3]
    vmlal.s16   q15,d14,d2[3]


    vmlsl.s16   q12,d15,d0[3]
    vmlal.s16   q13,d15,d4[3]
    vmlal.s16   q14,d15,d6[3]
    vmlsl.s16   q15,d15,d2[1]


    vmlal.s16   q10,d12,d3[0]
    vmlsl.s16   q10,d13,d6[2]
    vmlal.s16   q11,d12,d7[0]
    vmlsl.s16   q11,d13,d4[2]
    vmlsl.s16   q8,d12,d1[0]
    vmlal.s16   q8,d13,d0[2]
    vmlal.s16   q9,d12,d5[0]
    vmlsl.s16   q9,d13,d5[2]


    vld1.16     {d10,d11},[r1]!
    vld1.16     {d8,d9},[r1],r10




    vmlal.s16   q12,d8,d3[3]                @// y1 * cos1(part of b0)
    vmlsl.s16   q13,d8,d7[1]                @// y1 * cos3(part of b1)
    vmlsl.s16   q14,d8,d5[1]                @// y1 * sin3(part of b2)
    vmlal.s16   q15,d8,d1[3]                @// y1 * sin1(part of b3)

    vmlsl.s16   q12,d9,d7[1]                @// y1 * cos1 + y3 * cos3(part of b0)
    vmlsl.s16   q13,d9,d6[1]                @// y1 * cos3 - y3 * sin1(part of b1)
    vmlal.s16   q14,d9,d3[3]                @// y1 * sin3 - y3 * cos1(part of b2)
    vmlsl.s16   q15,d9,d1[1]                @// y1 * sin1 - y3 * sin3(part of b3)





    vmlsl.s16   q10,d10,d6[0]
    vmlal.s16   q10,d11,d2[2]


    vmlal.s16   q11,d10,d2[0]
    vmlsl.s16   q11,d11,d0[2]

    vmlsl.s16   q8,d10,d2[0]
    vmlal.s16   q8,d11,d3[2]

    vmlal.s16   q9,d10,d6[0]
    vmlsl.s16   q9,d11,d6[2]


    vld1.16     {d12,d13},[r1]!
    vld1.16     {d14,d15},[r1],r10



    vmlsl.s16   q12,d14,d5[1]
    vmlal.s16   q13,d14,d3[3]
    vmlsl.s16   q14,d14,d2[1]
    vmlal.s16   q15,d14,d0[3]


    vmlal.s16   q12,d15,d1[3]
    vmlsl.s16   q13,d15,d1[1]
    vmlal.s16   q14,d15,d0[3]
    vmlsl.s16   q15,d15,d0[1]


    vmlsl.s16   q10,d12,d1[0]
    vmlal.s16   q10,d13,d4[2]
    vmlal.s16   q11,d12,d3[0]
    vmlsl.s16   q11,d13,d5[2]
    vmlsl.s16   q8,d12,d5[0]
    vmlal.s16   q8,d13,d6[2]
    vmlal.s16   q9,d12,d7[0]
    vmlsl.s16   q9,d13,d7[2]

stage2_shift4:
    vadd.s32    q4,q10,q12
    vsub.s32    q5,q10,q12

    vadd.s32    q6,q11,q13
    vsub.s32    q12,q11,q13

    vadd.s32    q7,q8,q14
    vsub.s32    q13,q8,q14


    vadd.s32    q8,q9,q15
    vsub.s32    q14,q9,q15


    vqrshrn.s32 d30,q4,#shift_stage2_idct   @// r0 = (a0 + b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d19,q5,#shift_stage2_idct   @// r11 = (a0 - b0 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d31,q7,#shift_stage2_idct   @// r2 = (a2 + b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d18,q13,#shift_stage2_idct  @// r5 = (a2 - b2 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d12,q6,#shift_stage2_idct   @// r1 = (a1 + b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d15,q12,#shift_stage2_idct  @// r6 = (a1 - b1 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d13,q8,#shift_stage2_idct   @// r3 = (a3 + b3 + rnd) >> 7(shift_stage2_idct)
    vqrshrn.s32 d14,q14,#shift_stage2_idct  @// r4 = (a3 - b3 + rnd) >> 7(shift_stage2_idct)



    vtrn.16     q15,q6
    vtrn.16     q7,q9

    vtrn.32     d30,d31
    vtrn.32     d12,d13
    vtrn.32     d14,d15
    vtrn.32     d18,d19



    vst1.16     {q15},[r0]!
    vst1.16     {q6},[r0]!
    vst1.16     {q7},[r0]!
    vst1.16     {q9},[r0]!




    sub         r0,r0,#256
prediction_buffer:


    vld1.16     {d12,d13},[r0]!
    vld1.16     {d14,d15},[r0]!

    add         r0,r0,#32

    vld1.16     {d16,d17},[r0]!
    vld1.16     {d18,d19},[r0]!
    add         r0,r0,#32

    vld1.16     {d20,d21},[r0]!
    vld1.16     {d22,d23},[r0]!


    add         r0,r0,#32

    vld1.16     {d24,d25},[r0]!
    vld1.16     {d26,d27},[r0]!





@ d12 =r0 1- 4 values
@ d13 =r2 1- 4 values
@ d14=r1 1- 4 values
@ d15=r3 1- 4 values

@ d16 =r0 5- 8 values
@ d17 =r2 5- 8 values
@ d18=r1 5- 8 values
@ d19=r3 5- 8 values

@ d20 =r0 9- 12 values
@ d21 =r2 9- 12 values
@ d22=r1 9- 12 values
@ d23=r3 9- 12 values

@ d24 =r0 13-16 values
@ d25 =r2 13- 16 values
@ d26=r1 13- 16 values
@ d27=r3 13- 16 values

    vswp        d13,d16
    vswp        d21,d24
    vswp        d15,d18
    vswp        d23,d26


    vld1.8      {d8,d9},[r2],r8
    vld1.8      {d10,d11},[r2],r8
    vld1.8      {d28,d29},[r2],r8
    vld1.8      {d30,d31},[r2],r8


    vaddw.u8    q6,q6,d8
    vaddw.u8    q10,q10,d9
    vaddw.u8    q7,q7,d10
    vaddw.u8    q11,q11,d11
    vaddw.u8    q8,q8,d28
    vaddw.u8    q12,q12,d29
    vaddw.u8    q9,q9,d30
    vaddw.u8    q13,q13,d31
    sub         r2,r2,r8,lsl #2
    add         r2,r2,#16
    vqmovun.s16 d12,q6
    vqmovun.s16 d13,q10
    vqmovun.s16 d20,q7
    vqmovun.s16 d21,q11
    vqmovun.s16 d14,q8
    vqmovun.s16 d15,q12
    vqmovun.s16 d22,q9
    vqmovun.s16 d23,q13


    vst1.8      {d12,d13},[r3],r7
    vst1.8      {d20,d21},[r3],r7
    vst1.8      {d14,d15},[r3],r7
    vst1.8      {d22,d23},[r3],r7


    sub         r3,r3,r7,lsl #2
    add         r3,r3,#16

    vld1.16     {d12,d13},[r0]!
    vld1.16     {d14,d15},[r0]!

    sub         r0,r0,#96

    vld1.16     {d16,d17},[r0]!
    vld1.16     {d18,d19},[r0]!
    sub         r0,r0,#96

    vld1.16     {d20,d21},[r0]!
    vld1.16     {d22,d23},[r0]!


    sub         r0,r0,#96

    vld1.16     {d24,d25},[r0]!
    vld1.16     {d26,d27},[r0]!


    sub         r0,r0,#64




    vswp        d13,d16
    vswp        d21,d24
    vswp        d15,d18
    vswp        d23,d26


    vld1.8      {d8,d9},[r2],r8
    vld1.8      {d10,d11},[r2],r8
    vld1.8      {d28,d29},[r2],r8
    vld1.8      {d30,d31},[r2],r8


    vaddw.u8    q6,q6,d8
    vaddw.u8    q10,q10,d9
    vaddw.u8    q7,q7,d10
    vaddw.u8    q11,q11,d11
    vaddw.u8    q8,q8,d28
    vaddw.u8    q12,q12,d29
    vaddw.u8    q9,q9,d30
    vaddw.u8    q13,q13,d31
    sub         r2,r2,#16

    vqmovun.s16 d12,q6
    vqmovun.s16 d13,q10
    vqmovun.s16 d20,q7
    vqmovun.s16 d21,q11
    vqmovun.s16 d14,q8
    vqmovun.s16 d15,q12
    vqmovun.s16 d22,q9
    vqmovun.s16 d23,q13


    vst1.8      {d12,d13},[r3],r7
    vst1.8      {d20,d21},[r3],r7
    vst1.8      {d14,d15},[r3],r7
    vst1.8      {d22,d23},[r3],r7

    sub         r3,r3,#16

    subs        r14,r14,#1
    bne         dct_stage2
    vpop        {d8  -  d15}
    ldmfd       sp!,{r0-r12,pc}