/* NG4memset.S: Niagara-4 optimized memset/bzero. * * Copyright (C) 2012 David S. Miller (davem@davemloft.net) */ #include <asm/asi.h> .register %g2, #scratch .register %g3, #scratch .text .align 32 .globl NG4memset NG4memset: andcc %o1, 0xff, %o4 be,pt %icc, 1f mov %o2, %o1 sllx %o4, 8, %g1 or %g1, %o4, %o2 sllx %o2, 16, %g1 or %g1, %o2, %o2 sllx %o2, 32, %g1 ba,pt %icc, 1f or %g1, %o2, %o4 .size NG4memset,.-NG4memset .align 32 .globl NG4bzero NG4bzero: clr %o4 1: cmp %o1, 16 ble %icc, .Ltiny mov %o0, %o3 sub %g0, %o0, %g1 and %g1, 0x7, %g1 brz,pt %g1, .Laligned8 sub %o1, %g1, %o1 1: stb %o4, [%o0 + 0x00] subcc %g1, 1, %g1 bne,pt %icc, 1b add %o0, 1, %o0 .Laligned8: cmp %o1, 64 + (64 - 8) ble .Lmedium sub %g0, %o0, %g1 andcc %g1, (64 - 1), %g1 brz,pn %g1, .Laligned64 sub %o1, %g1, %o1 1: stx %o4, [%o0 + 0x00] subcc %g1, 8, %g1 bne,pt %icc, 1b add %o0, 0x8, %o0 .Laligned64: andn %o1, 64 - 1, %g1 sub %o1, %g1, %o1 brnz,pn %o4, .Lnon_bzero_loop mov 0x20, %g2 1: stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P subcc %g1, 0x40, %g1 stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P bne,pt %icc, 1b add %o0, 0x40, %o0 .Lpostloop: cmp %o1, 8 bl,pn %icc, .Ltiny membar #StoreStore|#StoreLoad .Lmedium: andn %o1, 0x7, %g1 sub %o1, %g1, %o1 1: stx %o4, [%o0 + 0x00] subcc %g1, 0x8, %g1 bne,pt %icc, 1b add %o0, 0x08, %o0 andcc %o1, 0x4, %g1 be,pt %icc, .Ltiny sub %o1, %g1, %o1 stw %o4, [%o0 + 0x00] add %o0, 0x4, %o0 .Ltiny: cmp %o1, 0 be,pn %icc, .Lexit 1: subcc %o1, 1, %o1 stb %o4, [%o0 + 0x00] bne,pt %icc, 1b add %o0, 1, %o0 .Lexit: retl mov %o3, %o0 .Lnon_bzero_loop: mov 0x08, %g3 mov 0x28, %o5 1: stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P subcc %g1, 0x40, %g1 stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P stxa %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P stxa %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P add %o0, 0x10, %o0 stxa %o4, [%o0 + %g0] ASI_BLK_INIT_QUAD_LDD_P stxa %o4, [%o0 + %g2] ASI_BLK_INIT_QUAD_LDD_P stxa %o4, [%o0 + %g3] ASI_BLK_INIT_QUAD_LDD_P stxa %o4, [%o0 + %o5] ASI_BLK_INIT_QUAD_LDD_P bne,pt %icc, 1b add %o0, 0x30, %o0 ba,a,pt %icc, .Lpostloop .size NG4bzero,.-NG4bzero