CoCalc -- audio_convert.asm

05. Matplotlib / ffmpeg-3.0 / libavresample / x86 / audio_convert.asm
⁵²⁸⁶⁹ views
1
;******************************************************************************
2
;* x86 optimized Format Conversion Utils
3
;* Copyright (c) 2008 Loren Merritt
4
;* Copyright (c) 2012 Justin Ruggles <justin.ruggles@gmail.com>
5
;*
6
;* This file is part of FFmpeg.
7
;*
8
;* FFmpeg is free software; you can redistribute it and/or
9
;* modify it under the terms of the GNU Lesser General Public
10
;* License as published by the Free Software Foundation; either
11
;* version 2.1 of the License, or (at your option) any later version.
12
;*
13
;* FFmpeg is distributed in the hope that it will be useful,
14
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16
;* Lesser General Public License for more details.
17
;*
18
;* You should have received a copy of the GNU Lesser General Public
19
;* License along with FFmpeg; if not, write to the Free Software
20
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21
;******************************************************************************
22

23
%include "libavutil/x86/x86util.asm"
24
%include "util.asm"
25

26
SECTION_RODATA 32
27

28
pf_s32_inv_scale: times 8 dd 0x30000000
29
pf_s32_scale:     times 8 dd 0x4f000000
30
pf_s32_clip:      times 8 dd 0x4effffff
31
pf_s16_inv_scale: times 4 dd 0x38000000
32
pf_s16_scale:     times 4 dd 0x47000000
33
pb_shuf_unpack_even:      db -1, -1,  0,  1, -1, -1,  2,  3, -1, -1,  8,  9, -1, -1, 10, 11
34
pb_shuf_unpack_odd:       db -1, -1,  4,  5, -1, -1,  6,  7, -1, -1, 12, 13, -1, -1, 14, 15
35
pb_interleave_words: SHUFFLE_MASK_W  0,  4,  1,  5,  2,  6,  3,  7
36
pb_deinterleave_words: SHUFFLE_MASK_W  0,  2,  4,  6,  1,  3,  5,  7
37
pw_zero_even:     times 4 dw 0x0000, 0xffff
38

39
SECTION .text
40

41
;------------------------------------------------------------------------------
42
; void ff_conv_s16_to_s32(int32_t *dst, const int16_t *src, int len);
43
;------------------------------------------------------------------------------
44

45
INIT_XMM sse2
46
cglobal conv_s16_to_s32, 3,3,3, dst, src, len
47
    lea      lenq, [2*lend]
48
    lea      dstq, [dstq+2*lenq]
49
    add      srcq, lenq
50
    neg      lenq
51
.loop:
52
    mova       m2, [srcq+lenq]
53
    pxor       m0, m0
54
    pxor       m1, m1
55
    punpcklwd  m0, m2
56
    punpckhwd  m1, m2
57
    mova  [dstq+2*lenq       ], m0
58
    mova  [dstq+2*lenq+mmsize], m1
59
    add      lenq, mmsize
60
    jl .loop
61
    REP_RET
62

63
;------------------------------------------------------------------------------
64
; void ff_conv_s16_to_flt(float *dst, const int16_t *src, int len);
65
;------------------------------------------------------------------------------
66

67
%macro CONV_S16_TO_FLT 0
68
cglobal conv_s16_to_flt, 3,3,3, dst, src, len
69
    lea      lenq, [2*lend]
70
    add      srcq, lenq
71
    lea      dstq, [dstq + 2*lenq]
72
    neg      lenq
73
    mova       m2, [pf_s16_inv_scale]
74
    ALIGN 16
75
.loop:
76
    mova       m0, [srcq+lenq]
77
    S16_TO_S32_SX 0, 1
78
    cvtdq2ps   m0, m0
79
    cvtdq2ps   m1, m1
80
    mulps      m0, m2
81
    mulps      m1, m2
82
    mova  [dstq+2*lenq       ], m0
83
    mova  [dstq+2*lenq+mmsize], m1
84
    add      lenq, mmsize
85
    jl .loop
86
    REP_RET
87
%endmacro
88

89
INIT_XMM sse2
90
CONV_S16_TO_FLT
91
INIT_XMM sse4
92
CONV_S16_TO_FLT
93

94
;------------------------------------------------------------------------------
95
; void ff_conv_s32_to_s16(int16_t *dst, const int32_t *src, int len);
96
;------------------------------------------------------------------------------
97

98
%macro CONV_S32_TO_S16 0
99
cglobal conv_s32_to_s16, 3,3,4, dst, src, len
100
    lea     lenq, [2*lend]
101
    lea     srcq, [srcq+2*lenq]
102
    add     dstq, lenq
103
    neg     lenq
104
.loop:
105
    mova      m0, [srcq+2*lenq         ]
106
    mova      m1, [srcq+2*lenq+  mmsize]
107
    mova      m2, [srcq+2*lenq+2*mmsize]
108
    mova      m3, [srcq+2*lenq+3*mmsize]
109
    psrad     m0, 16
110
    psrad     m1, 16
111
    psrad     m2, 16
112
    psrad     m3, 16
113
    packssdw  m0, m1
114
    packssdw  m2, m3
115
    mova  [dstq+lenq       ], m0
116
    mova  [dstq+lenq+mmsize], m2
117
    add     lenq, mmsize*2
118
    jl .loop
119
%if mmsize == 8
120
    emms
121
    RET
122
%else
123
    REP_RET
124
%endif
125
%endmacro
126

127
INIT_MMX mmx
128
CONV_S32_TO_S16
129
INIT_XMM sse2
130
CONV_S32_TO_S16
131

132
;------------------------------------------------------------------------------
133
; void ff_conv_s32_to_flt(float *dst, const int32_t *src, int len);
134
;------------------------------------------------------------------------------
135

136
%macro CONV_S32_TO_FLT 0
137
cglobal conv_s32_to_flt, 3,3,3, dst, src, len
138
    lea     lenq, [4*lend]
139
    add     srcq, lenq
140
    add     dstq, lenq
141
    neg     lenq
142
    mova      m0, [pf_s32_inv_scale]
143
    ALIGN 16
144
.loop:
145
    cvtdq2ps  m1, [srcq+lenq       ]
146
    cvtdq2ps  m2, [srcq+lenq+mmsize]
147
    mulps     m1, m1, m0
148
    mulps     m2, m2, m0
149
    mova  [dstq+lenq       ], m1
150
    mova  [dstq+lenq+mmsize], m2
151
    add     lenq, mmsize*2
152
    jl .loop
153
    REP_RET
154
%endmacro
155

156
INIT_XMM sse2
157
CONV_S32_TO_FLT
158
%if HAVE_AVX_EXTERNAL
159
INIT_YMM avx
160
CONV_S32_TO_FLT
161
%endif
162

163
;------------------------------------------------------------------------------
164
; void ff_conv_flt_to_s16(int16_t *dst, const float *src, int len);
165
;------------------------------------------------------------------------------
166

167
INIT_XMM sse2
168
cglobal conv_flt_to_s16, 3,3,5, dst, src, len
169
    lea     lenq, [2*lend]
170
    lea     srcq, [srcq+2*lenq]
171
    add     dstq, lenq
172
    neg     lenq
173
    mova      m4, [pf_s16_scale]
174
.loop:
175
    mova      m0, [srcq+2*lenq         ]
176
    mova      m1, [srcq+2*lenq+1*mmsize]
177
    mova      m2, [srcq+2*lenq+2*mmsize]
178
    mova      m3, [srcq+2*lenq+3*mmsize]
179
    mulps     m0, m4
180
    mulps     m1, m4
181
    mulps     m2, m4
182
    mulps     m3, m4
183
    cvtps2dq  m0, m0
184
    cvtps2dq  m1, m1
185
    cvtps2dq  m2, m2
186
    cvtps2dq  m3, m3
187
    packssdw  m0, m1
188
    packssdw  m2, m3
189
    mova  [dstq+lenq       ], m0
190
    mova  [dstq+lenq+mmsize], m2
191
    add     lenq, mmsize*2
192
    jl .loop
193
    REP_RET
194

195
;------------------------------------------------------------------------------
196
; void ff_conv_flt_to_s32(int32_t *dst, const float *src, int len);
197
;------------------------------------------------------------------------------
198

199
%macro CONV_FLT_TO_S32 0
200
cglobal conv_flt_to_s32, 3,3,6, dst, src, len
201
    lea     lenq, [lend*4]
202
    add     srcq, lenq
203
    add     dstq, lenq
204
    neg     lenq
205
    mova      m4, [pf_s32_scale]
206
    mova      m5, [pf_s32_clip]
207
.loop:
208
    mulps     m0, m4, [srcq+lenq         ]
209
    mulps     m1, m4, [srcq+lenq+1*mmsize]
210
    mulps     m2, m4, [srcq+lenq+2*mmsize]
211
    mulps     m3, m4, [srcq+lenq+3*mmsize]
212
    minps     m0, m0, m5
213
    minps     m1, m1, m5
214
    minps     m2, m2, m5
215
    minps     m3, m3, m5
216
    cvtps2dq  m0, m0
217
    cvtps2dq  m1, m1
218
    cvtps2dq  m2, m2
219
    cvtps2dq  m3, m3
220
    mova  [dstq+lenq         ], m0
221
    mova  [dstq+lenq+1*mmsize], m1
222
    mova  [dstq+lenq+2*mmsize], m2
223
    mova  [dstq+lenq+3*mmsize], m3
224
    add     lenq, mmsize*4
225
    jl .loop
226
    REP_RET
227
%endmacro
228

229
INIT_XMM sse2
230
CONV_FLT_TO_S32
231
%if HAVE_AVX_EXTERNAL
232
INIT_YMM avx
233
CONV_FLT_TO_S32
234
%endif
235

236
;------------------------------------------------------------------------------
237
; void ff_conv_s16p_to_s16_2ch(int16_t *dst, int16_t *const *src, int len,
238
;                              int channels);
239
;------------------------------------------------------------------------------
240

241
%macro CONV_S16P_TO_S16_2CH 0
242
cglobal conv_s16p_to_s16_2ch, 3,4,5, dst, src0, len, src1
243
    mov       src1q, [src0q+gprsize]
244
    mov       src0q, [src0q        ]
245
    lea        lenq, [2*lend]
246
    add       src0q, lenq
247
    add       src1q, lenq
248
    lea        dstq, [dstq+2*lenq]
249
    neg        lenq
250
.loop:
251
    mova         m0, [src0q+lenq       ]
252
    mova         m1, [src1q+lenq       ]
253
    mova         m2, [src0q+lenq+mmsize]
254
    mova         m3, [src1q+lenq+mmsize]
255
    SBUTTERFLY2  wd, 0, 1, 4
256
    SBUTTERFLY2  wd, 2, 3, 4
257
    mova  [dstq+2*lenq+0*mmsize], m0
258
    mova  [dstq+2*lenq+1*mmsize], m1
259
    mova  [dstq+2*lenq+2*mmsize], m2
260
    mova  [dstq+2*lenq+3*mmsize], m3
261
    add        lenq, 2*mmsize
262
    jl .loop
263
    REP_RET
264
%endmacro
265

266
INIT_XMM sse2
267
CONV_S16P_TO_S16_2CH
268
%if HAVE_AVX_EXTERNAL
269
INIT_XMM avx
270
CONV_S16P_TO_S16_2CH
271
%endif
272

273
;------------------------------------------------------------------------------
274
; void ff_conv_s16p_to_s16_6ch(int16_t *dst, int16_t *const *src, int len,
275
;                              int channels);
276
;------------------------------------------------------------------------------
277

278
;------------------------------------------------------------------------------
279
; NOTE: In the 6-channel functions, len could be used as an index on x86-64
280
;       instead of just a counter, which would avoid incrementing the
281
;       pointers, but the extra complexity and amount of code is not worth
282
;       the small gain. On x86-32 there are not enough registers to use len
283
;       as an index without keeping two of the pointers on the stack and
284
;       loading them in each iteration.
285
;------------------------------------------------------------------------------
286

287
%macro CONV_S16P_TO_S16_6CH 0
288
%if ARCH_X86_64
289
cglobal conv_s16p_to_s16_6ch, 3,8,7, dst, src0, len, src1, src2, src3, src4, src5
290
%else
291
cglobal conv_s16p_to_s16_6ch, 2,7,7, dst, src0, src1, src2, src3, src4, src5
292
%define lend dword r2m
293
%endif
294
    mov      src1q, [src0q+1*gprsize]
295
    mov      src2q, [src0q+2*gprsize]
296
    mov      src3q, [src0q+3*gprsize]
297
    mov      src4q, [src0q+4*gprsize]
298
    mov      src5q, [src0q+5*gprsize]
299
    mov      src0q, [src0q]
300
    sub      src1q, src0q
301
    sub      src2q, src0q
302
    sub      src3q, src0q
303
    sub      src4q, src0q
304
    sub      src5q, src0q
305
.loop:
306
%if cpuflag(sse2slow)
307
    movq        m0, [src0q      ]   ; m0 =  0,  6, 12, 18,  x,  x,  x,  x
308
    movq        m1, [src0q+src1q]   ; m1 =  1,  7, 13, 19,  x,  x,  x,  x
309
    movq        m2, [src0q+src2q]   ; m2 =  2,  8, 14, 20,  x,  x,  x,  x
310
    movq        m3, [src0q+src3q]   ; m3 =  3,  9, 15, 21,  x,  x,  x,  x
311
    movq        m4, [src0q+src4q]   ; m4 =  4, 10, 16, 22,  x,  x,  x,  x
312
    movq        m5, [src0q+src5q]   ; m5 =  5, 11, 17, 23,  x,  x,  x,  x
313
                                    ; unpack words:
314
    punpcklwd   m0, m1              ; m0 =  0,  1,  6,  7, 12, 13, 18, 19
315
    punpcklwd   m2, m3              ; m2 =  4,  5, 10, 11, 16, 17, 22, 23
316
    punpcklwd   m4, m5              ; m4 =  2,  3,  8,  9, 14, 15, 20, 21
317
                                    ; blend dwords
318
    shufps      m1, m0, m2, q2020   ; m1 =  0,  1, 12, 13,  2,  3, 14, 15
319
    shufps      m0, m4, q2031       ; m0 =  6,  7, 18, 19,  4,  5, 16, 17
320
    shufps      m2, m4, q3131       ; m2 =  8,  9, 20, 21, 10, 11, 22, 23
321
                                    ; shuffle dwords
322
    pshufd      m0, m0, q1302       ; m0 =  4,  5,  6,  7, 16, 17, 18, 19
323
    pshufd      m1, m1, q3120       ; m1 =  0,  1,  2,  3, 12, 13, 14, 15
324
    pshufd      m2, m2, q3120       ; m2 =  8,  9, 10, 11, 20, 21, 22, 23
325
    movq   [dstq+0*mmsize/2], m1
326
    movq   [dstq+1*mmsize/2], m0
327
    movq   [dstq+2*mmsize/2], m2
328
    movhps [dstq+3*mmsize/2], m1
329
    movhps [dstq+4*mmsize/2], m0
330
    movhps [dstq+5*mmsize/2], m2
331
    add      src0q, mmsize/2
332
    add       dstq, mmsize*3
333
    sub       lend, mmsize/4
334
%else
335
    mova        m0, [src0q      ]   ; m0 =  0,  6, 12, 18, 24, 30, 36, 42
336
    mova        m1, [src0q+src1q]   ; m1 =  1,  7, 13, 19, 25, 31, 37, 43
337
    mova        m2, [src0q+src2q]   ; m2 =  2,  8, 14, 20, 26, 32, 38, 44
338
    mova        m3, [src0q+src3q]   ; m3 =  3,  9, 15, 21, 27, 33, 39, 45
339
    mova        m4, [src0q+src4q]   ; m4 =  4, 10, 16, 22, 28, 34, 40, 46
340
    mova        m5, [src0q+src5q]   ; m5 =  5, 11, 17, 23, 29, 35, 41, 47
341
                                    ; unpack words:
342
    SBUTTERFLY2 wd, 0, 1, 6         ; m0 =  0,  1,  6,  7, 12, 13, 18, 19
343
                                    ; m1 = 24, 25, 30, 31, 36, 37, 42, 43
344
    SBUTTERFLY2 wd, 2, 3, 6         ; m2 =  2,  3,  8,  9, 14, 15, 20, 21
345
                                    ; m3 = 26, 27, 32, 33, 38, 39, 44, 45
346
    SBUTTERFLY2 wd, 4, 5, 6         ; m4 =  4,  5, 10, 11, 16, 17, 22, 23
347
                                    ; m5 = 28, 29, 34, 35, 40, 41, 46, 47
348
                                    ; blend dwords
349
    shufps      m6, m0, m2, q2020   ; m6 =  0,  1, 12, 13,  2,  3, 14, 15
350
    shufps      m0, m4, q2031       ; m0 =  6,  7, 18, 19,  4,  5, 16, 17
351
    shufps      m2, m4, q3131       ; m2 =  8,  9, 20, 21, 10, 11, 22, 23
352
    SWAP 4,6                        ; m4 =  0,  1, 12, 13,  2,  3, 14, 15
353
    shufps      m6, m1, m3, q2020   ; m6 = 24, 25, 36, 37, 26, 27, 38, 39
354
    shufps      m1, m5, q2031       ; m1 = 30, 31, 42, 43, 28, 29, 40, 41
355
    shufps      m3, m5, q3131       ; m3 = 32, 33, 44, 45, 34, 35, 46, 47
356
    SWAP 5,6                        ; m5 = 24, 25, 36, 37, 26, 27, 38, 39
357
                                    ; shuffle dwords
358
    pshufd      m0, m0, q1302       ; m0 =  4,  5,  6,  7, 16, 17, 18, 19
359
    pshufd      m2, m2, q3120       ; m2 =  8,  9, 10, 11, 20, 21, 22, 23
360
    pshufd      m4, m4, q3120       ; m4 =  0,  1,  2,  3, 12, 13, 14, 15
361
    pshufd      m1, m1, q1302       ; m1 = 28, 29, 30, 31, 40, 41, 42, 43
362
    pshufd      m3, m3, q3120       ; m3 = 32, 33, 34, 35, 44, 45, 46, 47
363
    pshufd      m5, m5, q3120       ; m5 = 24, 25, 26, 27, 36, 37, 38, 39
364
                                    ; shuffle qwords
365
    punpcklqdq  m6, m4, m0          ; m6 =  0,  1,  2,  3,  4,  5,  6,  7
366
    punpckhqdq  m0, m2              ; m0 = 16, 17, 18, 19, 20, 21, 22, 23
367
    shufps      m2, m4, q3210       ; m2 =  8,  9, 10, 11, 12, 13, 14, 15
368
    SWAP 4,6                        ; m4 =  0,  1,  2,  3,  4,  5,  6,  7
369
    punpcklqdq  m6, m5, m1          ; m6 = 24, 25, 26, 27, 28, 29, 30, 31
370
    punpckhqdq  m1, m3              ; m1 = 40, 41, 42, 43, 44, 45, 46, 47
371
    shufps      m3, m5, q3210       ; m3 = 32, 33, 34, 35, 36, 37, 38, 39
372
    SWAP 5,6                        ; m5 = 24, 25, 26, 27, 28, 29, 30, 31
373
    mova   [dstq+0*mmsize], m4
374
    mova   [dstq+1*mmsize], m2
375
    mova   [dstq+2*mmsize], m0
376
    mova   [dstq+3*mmsize], m5
377
    mova   [dstq+4*mmsize], m3
378
    mova   [dstq+5*mmsize], m1
379
    add      src0q, mmsize
380
    add       dstq, mmsize*6
381
    sub       lend, mmsize/2
382
%endif
383
    jg .loop
384
    REP_RET
385
%endmacro
386

387
INIT_XMM sse2
388
CONV_S16P_TO_S16_6CH
389
INIT_XMM sse2slow
390
CONV_S16P_TO_S16_6CH
391
%if HAVE_AVX_EXTERNAL
392
INIT_XMM avx
393
CONV_S16P_TO_S16_6CH
394
%endif
395

396
;------------------------------------------------------------------------------
397
; void ff_conv_s16p_to_flt_2ch(float *dst, int16_t *const *src, int len,
398
;                              int channels);
399
;------------------------------------------------------------------------------
400

401
%macro CONV_S16P_TO_FLT_2CH 0
402
cglobal conv_s16p_to_flt_2ch, 3,4,6, dst, src0, len, src1
403
    lea       lenq, [2*lend]
404
    mov      src1q, [src0q+gprsize]
405
    mov      src0q, [src0q        ]
406
    lea       dstq, [dstq+4*lenq]
407
    add      src0q, lenq
408
    add      src1q, lenq
409
    neg       lenq
410
    mova        m5, [pf_s32_inv_scale]
411
.loop:
412
    mova        m2, [src0q+lenq]    ; m2 =  0,  2,  4,  6,  8, 10, 12, 14
413
    mova        m4, [src1q+lenq]    ; m4 =  1,  3,  5,  7,  9, 11, 13, 15
414
    SBUTTERFLY2 wd, 2, 4, 3         ; m2 =  0,  1,  2,  3,  4,  5,  6,  7
415
                                    ; m4 =  8,  9, 10, 11, 12, 13, 14, 15
416
    pxor        m3, m3
417
    punpcklwd   m0, m3, m2          ; m0 =      0,      1,      2,      3
418
    punpckhwd   m1, m3, m2          ; m1 =      4,      5,      6,      7
419
    punpcklwd   m2, m3, m4          ; m2 =      8,      9,     10,     11
420
    punpckhwd   m3, m4              ; m3 =     12,     13,     14,     15
421
    cvtdq2ps    m0, m0
422
    cvtdq2ps    m1, m1
423
    cvtdq2ps    m2, m2
424
    cvtdq2ps    m3, m3
425
    mulps       m0, m5
426
    mulps       m1, m5
427
    mulps       m2, m5
428
    mulps       m3, m5
429
    mova  [dstq+4*lenq         ], m0
430
    mova  [dstq+4*lenq+  mmsize], m1
431
    mova  [dstq+4*lenq+2*mmsize], m2
432
    mova  [dstq+4*lenq+3*mmsize], m3
433
    add       lenq, mmsize
434
    jl .loop
435
    REP_RET
436
%endmacro
437

438
INIT_XMM sse2
439
CONV_S16P_TO_FLT_2CH
440
%if HAVE_AVX_EXTERNAL
441
INIT_XMM avx
442
CONV_S16P_TO_FLT_2CH
443
%endif
444

445
;------------------------------------------------------------------------------
446
; void ff_conv_s16p_to_flt_6ch(float *dst, int16_t *const *src, int len,
447
;                              int channels);
448
;------------------------------------------------------------------------------
449

450
%macro CONV_S16P_TO_FLT_6CH 0
451
%if ARCH_X86_64
452
cglobal conv_s16p_to_flt_6ch, 3,8,8, dst, src, len, src1, src2, src3, src4, src5
453
%else
454
cglobal conv_s16p_to_flt_6ch, 2,7,8, dst, src, src1, src2, src3, src4, src5
455
%define lend dword r2m
456
%endif
457
    mov     src1q, [srcq+1*gprsize]
458
    mov     src2q, [srcq+2*gprsize]
459
    mov     src3q, [srcq+3*gprsize]
460
    mov     src4q, [srcq+4*gprsize]
461
    mov     src5q, [srcq+5*gprsize]
462
    mov      srcq, [srcq]
463
    sub     src1q, srcq
464
    sub     src2q, srcq
465
    sub     src3q, srcq
466
    sub     src4q, srcq
467
    sub     src5q, srcq
468
    mova       m7, [pf_s32_inv_scale]
469
%if cpuflag(ssse3)
470
    %define unpack_even m6
471
    mova       m6, [pb_shuf_unpack_even]
472
%if ARCH_X86_64
473
    %define unpack_odd m8
474
    mova       m8, [pb_shuf_unpack_odd]
475
%else
476
    %define unpack_odd [pb_shuf_unpack_odd]
477
%endif
478
%endif
479
.loop:
480
    movq       m0, [srcq      ]  ; m0 =  0,  6, 12, 18,  x,  x,  x,  x
481
    movq       m1, [srcq+src1q]  ; m1 =  1,  7, 13, 19,  x,  x,  x,  x
482
    movq       m2, [srcq+src2q]  ; m2 =  2,  8, 14, 20,  x,  x,  x,  x
483
    movq       m3, [srcq+src3q]  ; m3 =  3,  9, 15, 21,  x,  x,  x,  x
484
    movq       m4, [srcq+src4q]  ; m4 =  4, 10, 16, 22,  x,  x,  x,  x
485
    movq       m5, [srcq+src5q]  ; m5 =  5, 11, 17, 23,  x,  x,  x,  x
486
                                 ; unpack words:
487
    punpcklwd  m0, m1            ; m0 =  0,  1,  6,  7, 12, 13, 18, 19
488
    punpcklwd  m2, m3            ; m2 =  2,  3,  8,  9, 14, 15, 20, 21
489
    punpcklwd  m4, m5            ; m4 =  4,  5, 10, 11, 16, 17, 22, 23
490
                                 ; blend dwords
491
    shufps     m1, m4, m0, q3120 ; m1 =  4,  5, 16, 17,  6,  7, 18, 19
492
    shufps         m0, m2, q2020 ; m0 =  0,  1, 12, 13,  2,  3, 14, 15
493
    shufps         m2, m4, q3131 ; m2 =  8,  9, 20, 21, 10, 11, 22, 23
494
%if cpuflag(ssse3)
495
    pshufb     m3, m0, unpack_odd   ; m3 =  12,     13,     14,     15
496
    pshufb         m0, unpack_even  ; m0 =   0,      1,      2,      3
497
    pshufb     m4, m1, unpack_odd   ; m4 =  16,     17,     18,     19
498
    pshufb         m1, unpack_even  ; m1 =   4,      5,      6,      7
499
    pshufb     m5, m2, unpack_odd   ; m5 =  20,     21,     22,     23
500
    pshufb         m2, unpack_even  ; m2 =   8,      9,     10,     11
501
%else
502
                                 ; shuffle dwords
503
    pshufd     m0, m0, q3120     ; m0 =  0,  1,  2,  3, 12, 13, 14, 15
504
    pshufd     m1, m1, q3120     ; m1 =  4,  5,  6,  7, 16, 17, 18, 19
505
    pshufd     m2, m2, q3120     ; m2 =  8,  9, 10, 11, 20, 21, 22, 23
506
    pxor       m6, m6            ; convert s16 in m0-m2 to s32 in m0-m5
507
    punpcklwd  m3, m6, m0        ; m3 =      0,      1,      2,      3
508
    punpckhwd  m4, m6, m0        ; m4 =     12,     13,     14,     15
509
    punpcklwd  m0, m6, m1        ; m0 =      4,      5,      6,      7
510
    punpckhwd  m5, m6, m1        ; m5 =     16,     17,     18,     19
511
    punpcklwd  m1, m6, m2        ; m1 =      8,      9,     10,     11
512
    punpckhwd      m6, m2        ; m6 =     20,     21,     22,     23
513
    SWAP 6,2,1,0,3,4,5           ; swap registers 3,0,1,4,5,6 to 0,1,2,3,4,5
514
%endif
515
    cvtdq2ps   m0, m0            ; convert s32 to float
516
    cvtdq2ps   m1, m1
517
    cvtdq2ps   m2, m2
518
    cvtdq2ps   m3, m3
519
    cvtdq2ps   m4, m4
520
    cvtdq2ps   m5, m5
521
    mulps      m0, m7            ; scale float from s32 range to [-1.0,1.0]
522
    mulps      m1, m7
523
    mulps      m2, m7
524
    mulps      m3, m7
525
    mulps      m4, m7
526
    mulps      m5, m7
527
    mova  [dstq         ], m0
528
    mova  [dstq+  mmsize], m1
529
    mova  [dstq+2*mmsize], m2
530
    mova  [dstq+3*mmsize], m3
531
    mova  [dstq+4*mmsize], m4
532
    mova  [dstq+5*mmsize], m5
533
    add      srcq, mmsize/2
534
    add      dstq, mmsize*6
535
    sub      lend, mmsize/4
536
    jg .loop
537
    REP_RET
538
%endmacro
539

540
INIT_XMM sse2
541
CONV_S16P_TO_FLT_6CH
542
INIT_XMM ssse3
543
CONV_S16P_TO_FLT_6CH
544
%if HAVE_AVX_EXTERNAL
545
INIT_XMM avx
546
CONV_S16P_TO_FLT_6CH
547
%endif
548

549
;------------------------------------------------------------------------------
550
; void ff_conv_fltp_to_s16_2ch(int16_t *dst, float *const *src, int len,
551
;                              int channels);
552
;------------------------------------------------------------------------------
553

554
%macro CONV_FLTP_TO_S16_2CH 0
555
cglobal conv_fltp_to_s16_2ch, 3,4,3, dst, src0, len, src1
556
    lea      lenq, [4*lend]
557
    mov     src1q, [src0q+gprsize]
558
    mov     src0q, [src0q        ]
559
    add      dstq, lenq
560
    add     src0q, lenq
561
    add     src1q, lenq
562
    neg      lenq
563
    mova       m2, [pf_s16_scale]
564
%if cpuflag(ssse3)
565
    mova       m3, [pb_interleave_words]
566
%endif
567
.loop:
568
    mulps      m0, m2, [src0q+lenq] ; m0 =    0,    2,    4,    6
569
    mulps      m1, m2, [src1q+lenq] ; m1 =    1,    3,    5,    7
570
    cvtps2dq   m0, m0
571
    cvtps2dq   m1, m1
572
%if cpuflag(ssse3)
573
    packssdw   m0, m1               ; m0 = 0, 2, 4, 6, 1, 3, 5, 7
574
    pshufb     m0, m3               ; m0 = 0, 1, 2, 3, 4, 5, 6, 7
575
%else
576
    packssdw   m0, m0               ; m0 = 0, 2, 4, 6, x, x, x, x
577
    packssdw   m1, m1               ; m1 = 1, 3, 5, 7, x, x, x, x
578
    punpcklwd  m0, m1               ; m0 = 0, 1, 2, 3, 4, 5, 6, 7
579
%endif
580
    mova  [dstq+lenq], m0
581
    add      lenq, mmsize
582
    jl .loop
583
    REP_RET
584
%endmacro
585

586
INIT_XMM sse2
587
CONV_FLTP_TO_S16_2CH
588
INIT_XMM ssse3
589
CONV_FLTP_TO_S16_2CH
590

591
;------------------------------------------------------------------------------
592
; void ff_conv_fltp_to_s16_6ch(int16_t *dst, float *const *src, int len,
593
;                              int channels);
594
;------------------------------------------------------------------------------
595

596
%macro CONV_FLTP_TO_S16_6CH 0
597
%if ARCH_X86_64
598
cglobal conv_fltp_to_s16_6ch, 3,8,7, dst, src, len, src1, src2, src3, src4, src5
599
%else
600
cglobal conv_fltp_to_s16_6ch, 2,7,7, dst, src, src1, src2, src3, src4, src5
601
%define lend dword r2m
602
%endif
603
    mov        src1q, [srcq+1*gprsize]
604
    mov        src2q, [srcq+2*gprsize]
605
    mov        src3q, [srcq+3*gprsize]
606
    mov        src4q, [srcq+4*gprsize]
607
    mov        src5q, [srcq+5*gprsize]
608
    mov         srcq, [srcq]
609
    sub        src1q, srcq
610
    sub        src2q, srcq
611
    sub        src3q, srcq
612
    sub        src4q, srcq
613
    sub        src5q, srcq
614
    movaps      xmm6, [pf_s16_scale]
615
.loop:
616
%if cpuflag(sse2)
617
    mulps         m0, m6, [srcq      ]
618
    mulps         m1, m6, [srcq+src1q]
619
    mulps         m2, m6, [srcq+src2q]
620
    mulps         m3, m6, [srcq+src3q]
621
    mulps         m4, m6, [srcq+src4q]
622
    mulps         m5, m6, [srcq+src5q]
623
    cvtps2dq      m0, m0
624
    cvtps2dq      m1, m1
625
    cvtps2dq      m2, m2
626
    cvtps2dq      m3, m3
627
    cvtps2dq      m4, m4
628
    cvtps2dq      m5, m5
629
    packssdw      m0, m3            ; m0 =  0,  6, 12, 18,  3,  9, 15, 21
630
    packssdw      m1, m4            ; m1 =  1,  7, 13, 19,  4, 10, 16, 22
631
    packssdw      m2, m5            ; m2 =  2,  8, 14, 20,  5, 11, 17, 23
632
                                    ; unpack words:
633
    movhlps       m3, m0            ; m3 =  3,  9, 15, 21,  x,  x,  x,  x
634
    punpcklwd     m0, m1            ; m0 =  0,  1,  6,  7, 12, 13, 18, 19
635
    punpckhwd     m1, m2            ; m1 =  4,  5, 10, 11, 16, 17, 22, 23
636
    punpcklwd     m2, m3            ; m2 =  2,  3,  8,  9, 14, 15, 20, 21
637
                                    ; blend dwords:
638
    shufps        m3, m0, m2, q2020 ; m3 =  0,  1, 12, 13,  2,  3, 14, 15
639
    shufps        m0, m1, q2031     ; m0 =  6,  7, 18, 19,  4,  5, 16, 17
640
    shufps        m2, m1, q3131     ; m2 =  8,  9, 20, 21, 10, 11, 22, 23
641
                                    ; shuffle dwords:
642
    shufps        m1, m2, m3, q3120 ; m1 =  8,  9, 10, 11, 12, 13, 14, 15
643
    shufps        m3, m0,     q0220 ; m3 =  0,  1,  2,  3,  4,  5,  6,  7
644
    shufps        m0, m2,     q3113 ; m0 = 16, 17, 18, 19, 20, 21, 22, 23
645
    mova  [dstq+0*mmsize], m3
646
    mova  [dstq+1*mmsize], m1
647
    mova  [dstq+2*mmsize], m0
648
%else ; sse
649
    movlps      xmm0, [srcq      ]
650
    movlps      xmm1, [srcq+src1q]
651
    movlps      xmm2, [srcq+src2q]
652
    movlps      xmm3, [srcq+src3q]
653
    movlps      xmm4, [srcq+src4q]
654
    movlps      xmm5, [srcq+src5q]
655
    mulps       xmm0, xmm6
656
    mulps       xmm1, xmm6
657
    mulps       xmm2, xmm6
658
    mulps       xmm3, xmm6
659
    mulps       xmm4, xmm6
660
    mulps       xmm5, xmm6
661
    cvtps2pi     mm0, xmm0
662
    cvtps2pi     mm1, xmm1
663
    cvtps2pi     mm2, xmm2
664
    cvtps2pi     mm3, xmm3
665
    cvtps2pi     mm4, xmm4
666
    cvtps2pi     mm5, xmm5
667
    packssdw     mm0, mm3           ; m0 =  0,  6,  3,  9
668
    packssdw     mm1, mm4           ; m1 =  1,  7,  4, 10
669
    packssdw     mm2, mm5           ; m2 =  2,  8,  5, 11
670
                                    ; unpack words
671
    pshufw       mm3, mm0, q1032    ; m3 =  3,  9,  0,  6
672
    punpcklwd    mm0, mm1           ; m0 =  0,  1,  6,  7
673
    punpckhwd    mm1, mm2           ; m1 =  4,  5, 10, 11
674
    punpcklwd    mm2, mm3           ; m2 =  2,  3,  8,  9
675
                                    ; unpack dwords
676
    pshufw       mm3, mm0, q1032    ; m3 =  6,  7,  0,  1
677
    punpckldq    mm0, mm2           ; m0 =  0,  1,  2,  3 (final)
678
    punpckhdq    mm2, mm1           ; m2 =  8,  9, 10, 11 (final)
679
    punpckldq    mm1, mm3           ; m1 =  4,  5,  6,  7 (final)
680
    mova  [dstq+0*mmsize], mm0
681
    mova  [dstq+1*mmsize], mm1
682
    mova  [dstq+2*mmsize], mm2
683
%endif
684
    add       srcq, mmsize
685
    add       dstq, mmsize*3
686
    sub       lend, mmsize/4
687
    jg .loop
688
%if mmsize == 8
689
    emms
690
    RET
691
%else
692
    REP_RET
693
%endif
694
%endmacro
695

696
INIT_MMX sse
697
CONV_FLTP_TO_S16_6CH
698
INIT_XMM sse2
699
CONV_FLTP_TO_S16_6CH
700
%if HAVE_AVX_EXTERNAL
701
INIT_XMM avx
702
CONV_FLTP_TO_S16_6CH
703
%endif
704

705
;------------------------------------------------------------------------------
706
; void ff_conv_fltp_to_flt_2ch(float *dst, float *const *src, int len,
707
;                              int channels);
708
;------------------------------------------------------------------------------
709

710
%macro CONV_FLTP_TO_FLT_2CH 0
711
cglobal conv_fltp_to_flt_2ch, 3,4,5, dst, src0, len, src1
712
    mov  src1q, [src0q+gprsize]
713
    mov  src0q, [src0q]
714
    lea   lenq, [4*lend]
715
    add  src0q, lenq
716
    add  src1q, lenq
717
    lea   dstq, [dstq+2*lenq]
718
    neg   lenq
719
.loop:
720
    mova    m0, [src0q+lenq       ]
721
    mova    m1, [src1q+lenq       ]
722
    mova    m2, [src0q+lenq+mmsize]
723
    mova    m3, [src1q+lenq+mmsize]
724
    SBUTTERFLYPS 0, 1, 4
725
    SBUTTERFLYPS 2, 3, 4
726
    mova  [dstq+2*lenq+0*mmsize], m0
727
    mova  [dstq+2*lenq+1*mmsize], m1
728
    mova  [dstq+2*lenq+2*mmsize], m2
729
    mova  [dstq+2*lenq+3*mmsize], m3
730
    add   lenq, 2*mmsize
731
    jl .loop
732
    REP_RET
733
%endmacro
734

735
INIT_XMM sse
736
CONV_FLTP_TO_FLT_2CH
737
%if HAVE_AVX_EXTERNAL
738
INIT_XMM avx
739
CONV_FLTP_TO_FLT_2CH
740
%endif
741

742
;-----------------------------------------------------------------------------
743
; void ff_conv_fltp_to_flt_6ch(float *dst, float *const *src, int len,
744
;                              int channels);
745
;-----------------------------------------------------------------------------
746

747
%macro CONV_FLTP_TO_FLT_6CH 0
748
cglobal conv_fltp_to_flt_6ch, 2,8,7, dst, src, src1, src2, src3, src4, src5, len
749
%if ARCH_X86_64
750
    mov     lend, r2d
751
%else
752
    %define lend dword r2m
753
%endif
754
    mov    src1q, [srcq+1*gprsize]
755
    mov    src2q, [srcq+2*gprsize]
756
    mov    src3q, [srcq+3*gprsize]
757
    mov    src4q, [srcq+4*gprsize]
758
    mov    src5q, [srcq+5*gprsize]
759
    mov     srcq, [srcq]
760
    sub    src1q, srcq
761
    sub    src2q, srcq
762
    sub    src3q, srcq
763
    sub    src4q, srcq
764
    sub    src5q, srcq
765
.loop:
766
    mova      m0, [srcq      ]
767
    mova      m1, [srcq+src1q]
768
    mova      m2, [srcq+src2q]
769
    mova      m3, [srcq+src3q]
770
    mova      m4, [srcq+src4q]
771
    mova      m5, [srcq+src5q]
772
%if cpuflag(sse4)
773
    SBUTTERFLYPS 0, 1, 6
774
    SBUTTERFLYPS 2, 3, 6
775
    SBUTTERFLYPS 4, 5, 6
776

777
    blendps   m6, m4, m0, 1100b
778
    movlhps   m0, m2
779
    movhlps   m4, m2
780
    blendps   m2, m5, m1, 1100b
781
    movlhps   m1, m3
782
    movhlps   m5, m3
783

784
    movaps [dstq   ], m0
785
    movaps [dstq+16], m6
786
    movaps [dstq+32], m4
787
    movaps [dstq+48], m1
788
    movaps [dstq+64], m2
789
    movaps [dstq+80], m5
790
%else ; mmx
791
    SBUTTERFLY dq, 0, 1, 6
792
    SBUTTERFLY dq, 2, 3, 6
793
    SBUTTERFLY dq, 4, 5, 6
794

795
    movq   [dstq   ], m0
796
    movq   [dstq+ 8], m2
797
    movq   [dstq+16], m4
798
    movq   [dstq+24], m1
799
    movq   [dstq+32], m3
800
    movq   [dstq+40], m5
801
%endif
802
    add      srcq, mmsize
803
    add      dstq, mmsize*6
804
    sub      lend, mmsize/4
805
    jg .loop
806
%if mmsize == 8
807
    emms
808
    RET
809
%else
810
    REP_RET
811
%endif
812
%endmacro
813

814
INIT_MMX mmx
815
CONV_FLTP_TO_FLT_6CH
816
INIT_XMM sse4
817
CONV_FLTP_TO_FLT_6CH
818
%if HAVE_AVX_EXTERNAL
819
INIT_XMM avx
820
CONV_FLTP_TO_FLT_6CH
821
%endif
822

823
;------------------------------------------------------------------------------
824
; void ff_conv_s16_to_s16p_2ch(int16_t *const *dst, int16_t *src, int len,
825
;                              int channels);
826
;------------------------------------------------------------------------------
827

828
%macro CONV_S16_TO_S16P_2CH 0
829
cglobal conv_s16_to_s16p_2ch, 3,4,4, dst0, src, len, dst1
830
    lea       lenq, [2*lend]
831
    mov      dst1q, [dst0q+gprsize]
832
    mov      dst0q, [dst0q        ]
833
    lea       srcq, [srcq+2*lenq]
834
    add      dst0q, lenq
835
    add      dst1q, lenq
836
    neg       lenq
837
%if cpuflag(ssse3)
838
    mova        m3, [pb_deinterleave_words]
839
%endif
840
.loop:
841
    mova        m0, [srcq+2*lenq       ]  ; m0 =  0,  1,  2,  3,  4,  5,  6,  7
842
    mova        m1, [srcq+2*lenq+mmsize]  ; m1 =  8,  9, 10, 11, 12, 13, 14, 15
843
%if cpuflag(ssse3)
844
    pshufb      m0, m3                    ; m0 =  0,  2,  4,  6,  1,  3,  5,  7
845
    pshufb      m1, m3                    ; m1 =  8, 10, 12, 14,  9, 11, 13, 15
846
    SBUTTERFLY2 qdq, 0, 1, 2              ; m0 =  0,  2,  4,  6,  8, 10, 12, 14
847
                                          ; m1 =  1,  3,  5,  7,  9, 11, 13, 15
848
%else ; sse2
849
    pshuflw     m0, m0, q3120             ; m0 =  0,  2,  1,  3,  4,  5,  6,  7
850
    pshufhw     m0, m0, q3120             ; m0 =  0,  2,  1,  3,  4,  6,  5,  7
851
    pshuflw     m1, m1, q3120             ; m1 =  8, 10,  9, 11, 12, 13, 14, 15
852
    pshufhw     m1, m1, q3120             ; m1 =  8, 10,  9, 11, 12, 14, 13, 15
853
    DEINT2_PS    0, 1, 2                  ; m0 =  0,  2,  4,  6,  8, 10, 12, 14
854
                                          ; m1 =  1,  3,  5,  7,  9, 11, 13, 15
855
%endif
856
    mova  [dst0q+lenq], m0
857
    mova  [dst1q+lenq], m1
858
    add       lenq, mmsize
859
    jl .loop
860
    REP_RET
861
%endmacro
862

863
INIT_XMM sse2
864
CONV_S16_TO_S16P_2CH
865
INIT_XMM ssse3
866
CONV_S16_TO_S16P_2CH
867
%if HAVE_AVX_EXTERNAL
868
INIT_XMM avx
869
CONV_S16_TO_S16P_2CH
870
%endif
871

872
;------------------------------------------------------------------------------
873
; void ff_conv_s16_to_s16p_6ch(int16_t *const *dst, int16_t *src, int len,
874
;                              int channels);
875
;------------------------------------------------------------------------------
876

877
%macro CONV_S16_TO_S16P_6CH 0
878
%if ARCH_X86_64
879
cglobal conv_s16_to_s16p_6ch, 3,8,5, dst, src, len, dst1, dst2, dst3, dst4, dst5
880
%else
881
cglobal conv_s16_to_s16p_6ch, 2,7,5, dst, src, dst1, dst2, dst3, dst4, dst5
882
%define lend dword r2m
883
%endif
884
    mov     dst1q, [dstq+  gprsize]
885
    mov     dst2q, [dstq+2*gprsize]
886
    mov     dst3q, [dstq+3*gprsize]
887
    mov     dst4q, [dstq+4*gprsize]
888
    mov     dst5q, [dstq+5*gprsize]
889
    mov      dstq, [dstq          ]
890
    sub     dst1q, dstq
891
    sub     dst2q, dstq
892
    sub     dst3q, dstq
893
    sub     dst4q, dstq
894
    sub     dst5q, dstq
895
.loop:
896
    mova       m0, [srcq+0*mmsize]      ; m0 =  0,  1,  2,  3,  4,  5,  6,  7
897
    mova       m3, [srcq+1*mmsize]      ; m3 =  8,  9, 10, 11, 12, 13, 14, 15
898
    mova       m2, [srcq+2*mmsize]      ; m2 = 16, 17, 18, 19, 20, 21, 22, 23
899
    PALIGNR    m1, m3, m0, 12, m4       ; m1 =  6,  7,  8,  9, 10, 11,  x,  x
900
    shufps     m3, m2, q1032            ; m3 = 12, 13, 14, 15, 16, 17, 18, 19
901
    psrldq     m2, 4                    ; m2 = 18, 19, 20, 21, 22, 23,  x,  x
902
    SBUTTERFLY2 wd, 0, 1, 4             ; m0 =  0,  6,  1,  7,  2,  8,  3,  9
903
                                        ; m1 =  4, 10,  5, 11,  x,  x,  x,  x
904
    SBUTTERFLY2 wd, 3, 2, 4             ; m3 = 12, 18, 13, 19, 14, 20, 15, 21
905
                                        ; m2 = 16, 22, 17, 23,  x,  x,  x,  x
906
    SBUTTERFLY2 dq, 0, 3, 4             ; m0 =  0,  6, 12, 18,  1,  7, 13, 19
907
                                        ; m3 =  2,  8, 14, 20,  3,  9, 15, 21
908
    punpckldq  m1, m2                   ; m1 =  4, 10, 16, 22,  5, 11, 17, 23
909
    movq    [dstq      ], m0
910
    movhps  [dstq+dst1q], m0
911
    movq    [dstq+dst2q], m3
912
    movhps  [dstq+dst3q], m3
913
    movq    [dstq+dst4q], m1
914
    movhps  [dstq+dst5q], m1
915
    add      srcq, mmsize*3
916
    add      dstq, mmsize/2
917
    sub      lend, mmsize/4
918
    jg .loop
919
    REP_RET
920
%endmacro
921

922
INIT_XMM sse2
923
CONV_S16_TO_S16P_6CH
924
INIT_XMM ssse3
925
CONV_S16_TO_S16P_6CH
926
%if HAVE_AVX_EXTERNAL
927
INIT_XMM avx
928
CONV_S16_TO_S16P_6CH
929
%endif
930

931
;------------------------------------------------------------------------------
932
; void ff_conv_s16_to_fltp_2ch(float *const *dst, int16_t *src, int len,
933
;                              int channels);
934
;------------------------------------------------------------------------------
935

936
%macro CONV_S16_TO_FLTP_2CH 0
937
cglobal conv_s16_to_fltp_2ch, 3,4,5, dst0, src, len, dst1
938
    lea       lenq, [4*lend]
939
    mov      dst1q, [dst0q+gprsize]
940
    mov      dst0q, [dst0q        ]
941
    add       srcq, lenq
942
    add      dst0q, lenq
943
    add      dst1q, lenq
944
    neg       lenq
945
    mova        m3, [pf_s32_inv_scale]
946
    mova        m4, [pw_zero_even]
947
.loop:
948
    mova        m1, [srcq+lenq]
949
    pslld       m0, m1, 16
950
    pand        m1, m4
951
    cvtdq2ps    m0, m0
952
    cvtdq2ps    m1, m1
953
    mulps       m0, m0, m3
954
    mulps       m1, m1, m3
955
    mova  [dst0q+lenq], m0
956
    mova  [dst1q+lenq], m1
957
    add       lenq, mmsize
958
    jl .loop
959
    REP_RET
960
%endmacro
961

962
INIT_XMM sse2
963
CONV_S16_TO_FLTP_2CH
964
%if HAVE_AVX_EXTERNAL
965
INIT_XMM avx
966
CONV_S16_TO_FLTP_2CH
967
%endif
968

969
;------------------------------------------------------------------------------
970
; void ff_conv_s16_to_fltp_6ch(float *const *dst, int16_t *src, int len,
971
;                              int channels);
972
;------------------------------------------------------------------------------
973

974
%macro CONV_S16_TO_FLTP_6CH 0
975
%if ARCH_X86_64
976
cglobal conv_s16_to_fltp_6ch, 3,8,7, dst, src, len, dst1, dst2, dst3, dst4, dst5
977
%else
978
cglobal conv_s16_to_fltp_6ch, 2,7,7, dst, src, dst1, dst2, dst3, dst4, dst5
979
%define lend dword r2m
980
%endif
981
    mov     dst1q, [dstq+  gprsize]
982
    mov     dst2q, [dstq+2*gprsize]
983
    mov     dst3q, [dstq+3*gprsize]
984
    mov     dst4q, [dstq+4*gprsize]
985
    mov     dst5q, [dstq+5*gprsize]
986
    mov      dstq, [dstq          ]
987
    sub     dst1q, dstq
988
    sub     dst2q, dstq
989
    sub     dst3q, dstq
990
    sub     dst4q, dstq
991
    sub     dst5q, dstq
992
    mova       m6, [pf_s16_inv_scale]
993
.loop:
994
    mova       m0, [srcq+0*mmsize]  ; m0 =  0,  1,  2,  3,  4,  5,  6,  7
995
    mova       m3, [srcq+1*mmsize]  ; m3 =  8,  9, 10, 11, 12, 13, 14, 15
996
    mova       m2, [srcq+2*mmsize]  ; m2 = 16, 17, 18, 19, 20, 21, 22, 23
997
    PALIGNR    m1, m3, m0, 12, m4   ; m1 =  6,  7,  8,  9, 10, 11,  x,  x
998
    shufps     m3, m2, q1032        ; m3 = 12, 13, 14, 15, 16, 17, 18, 19
999
    psrldq     m2, 4                ; m2 = 18, 19, 20, 21, 22, 23,  x,  x
1000
    SBUTTERFLY2 wd, 0, 1, 4         ; m0 =  0,  6,  1,  7,  2,  8,  3,  9
1001
                                    ; m1 =  4, 10,  5, 11,  x,  x,  x,  x
1002
    SBUTTERFLY2 wd, 3, 2, 4         ; m3 = 12, 18, 13, 19, 14, 20, 15, 21
1003
                                    ; m2 = 16, 22, 17, 23,  x,  x,  x,  x
1004
    SBUTTERFLY2 dq, 0, 3, 4         ; m0 =  0,  6, 12, 18,  1,  7, 13, 19
1005
                                    ; m3 =  2,  8, 14, 20,  3,  9, 15, 21
1006
    punpckldq  m1, m2               ; m1 =  4, 10, 16, 22,  5, 11, 17, 23
1007
    S16_TO_S32_SX 0, 2              ; m0 =      0,      6,     12,     18
1008
                                    ; m2 =      1,      7,     13,     19
1009
    S16_TO_S32_SX 3, 4              ; m3 =      2,      8,     14,     20
1010
                                    ; m4 =      3,      9,     15,     21
1011
    S16_TO_S32_SX 1, 5              ; m1 =      4,     10,     16,     22
1012
                                    ; m5 =      5,     11,     17,     23
1013
    SWAP 1,2,3,4
1014
    cvtdq2ps   m0, m0
1015
    cvtdq2ps   m1, m1
1016
    cvtdq2ps   m2, m2
1017
    cvtdq2ps   m3, m3
1018
    cvtdq2ps   m4, m4
1019
    cvtdq2ps   m5, m5
1020
    mulps      m0, m6
1021
    mulps      m1, m6
1022
    mulps      m2, m6
1023
    mulps      m3, m6
1024
    mulps      m4, m6
1025
    mulps      m5, m6
1026
    mova  [dstq      ], m0
1027
    mova  [dstq+dst1q], m1
1028
    mova  [dstq+dst2q], m2
1029
    mova  [dstq+dst3q], m3
1030
    mova  [dstq+dst4q], m4
1031
    mova  [dstq+dst5q], m5
1032
    add      srcq, mmsize*3
1033
    add      dstq, mmsize
1034
    sub      lend, mmsize/4
1035
    jg .loop
1036
    REP_RET
1037
%endmacro
1038

1039
INIT_XMM sse2
1040
CONV_S16_TO_FLTP_6CH
1041
INIT_XMM ssse3
1042
CONV_S16_TO_FLTP_6CH
1043
INIT_XMM sse4
1044
CONV_S16_TO_FLTP_6CH
1045
%if HAVE_AVX_EXTERNAL
1046
INIT_XMM avx
1047
CONV_S16_TO_FLTP_6CH
1048
%endif
1049

1050
;------------------------------------------------------------------------------
1051
; void ff_conv_flt_to_s16p_2ch(int16_t *const *dst, float *src, int len,
1052
;                              int channels);
1053
;------------------------------------------------------------------------------
1054

1055
%macro CONV_FLT_TO_S16P_2CH 0
1056
cglobal conv_flt_to_s16p_2ch, 3,4,6, dst0, src, len, dst1
1057
    lea       lenq, [2*lend]
1058
    mov      dst1q, [dst0q+gprsize]
1059
    mov      dst0q, [dst0q        ]
1060
    lea       srcq, [srcq+4*lenq]
1061
    add      dst0q, lenq
1062
    add      dst1q, lenq
1063
    neg       lenq
1064
    mova        m5, [pf_s16_scale]
1065
.loop:
1066
    mova       m0, [srcq+4*lenq         ]
1067
    mova       m1, [srcq+4*lenq+  mmsize]
1068
    mova       m2, [srcq+4*lenq+2*mmsize]
1069
    mova       m3, [srcq+4*lenq+3*mmsize]
1070
    DEINT2_PS   0, 1, 4
1071
    DEINT2_PS   2, 3, 4
1072
    mulps      m0, m0, m5
1073
    mulps      m1, m1, m5
1074
    mulps      m2, m2, m5
1075
    mulps      m3, m3, m5
1076
    cvtps2dq   m0, m0
1077
    cvtps2dq   m1, m1
1078
    cvtps2dq   m2, m2
1079
    cvtps2dq   m3, m3
1080
    packssdw   m0, m2
1081
    packssdw   m1, m3
1082
    mova  [dst0q+lenq], m0
1083
    mova  [dst1q+lenq], m1
1084
    add      lenq, mmsize
1085
    jl .loop
1086
    REP_RET
1087
%endmacro
1088

1089
INIT_XMM sse2
1090
CONV_FLT_TO_S16P_2CH
1091
%if HAVE_AVX_EXTERNAL
1092
INIT_XMM avx
1093
CONV_FLT_TO_S16P_2CH
1094
%endif
1095

1096
;------------------------------------------------------------------------------
1097
; void ff_conv_flt_to_s16p_6ch(int16_t *const *dst, float *src, int len,
1098
;                              int channels);
1099
;------------------------------------------------------------------------------
1100

1101
%macro CONV_FLT_TO_S16P_6CH 0
1102
%if ARCH_X86_64
1103
cglobal conv_flt_to_s16p_6ch, 3,8,7, dst, src, len, dst1, dst2, dst3, dst4, dst5
1104
%else
1105
cglobal conv_flt_to_s16p_6ch, 2,7,7, dst, src, dst1, dst2, dst3, dst4, dst5
1106
%define lend dword r2m
1107
%endif
1108
    mov     dst1q, [dstq+  gprsize]
1109
    mov     dst2q, [dstq+2*gprsize]
1110
    mov     dst3q, [dstq+3*gprsize]
1111
    mov     dst4q, [dstq+4*gprsize]
1112
    mov     dst5q, [dstq+5*gprsize]
1113
    mov      dstq, [dstq          ]
1114
    sub     dst1q, dstq
1115
    sub     dst2q, dstq
1116
    sub     dst3q, dstq
1117
    sub     dst4q, dstq
1118
    sub     dst5q, dstq
1119
    mova       m6, [pf_s16_scale]
1120
.loop:
1121
    mulps      m0, m6, [srcq+0*mmsize]
1122
    mulps      m3, m6, [srcq+1*mmsize]
1123
    mulps      m1, m6, [srcq+2*mmsize]
1124
    mulps      m4, m6, [srcq+3*mmsize]
1125
    mulps      m2, m6, [srcq+4*mmsize]
1126
    mulps      m5, m6, [srcq+5*mmsize]
1127
    cvtps2dq   m0, m0
1128
    cvtps2dq   m1, m1
1129
    cvtps2dq   m2, m2
1130
    cvtps2dq   m3, m3
1131
    cvtps2dq   m4, m4
1132
    cvtps2dq   m5, m5
1133
    packssdw   m0, m3               ; m0 =  0,  1,  2,  3,  4,  5,  6,  7
1134
    packssdw   m1, m4               ; m1 =  8,  9, 10, 11, 12, 13, 14, 15
1135
    packssdw   m2, m5               ; m2 = 16, 17, 18, 19, 20, 21, 22, 23
1136
    PALIGNR    m3, m1, m0, 12, m4   ; m3 =  6,  7,  8,  9, 10, 11,  x,  x
1137
    shufps     m1, m2, q1032        ; m1 = 12, 13, 14, 15, 16, 17, 18, 19
1138
    psrldq     m2, 4                ; m2 = 18, 19, 20, 21, 22, 23,  x,  x
1139
    SBUTTERFLY2 wd, 0, 3, 4         ; m0 =  0,  6,  1,  7,  2,  8,  3,  9
1140
                                    ; m3 =  4, 10,  5, 11,  x,  x,  x,  x
1141
    SBUTTERFLY2 wd, 1, 2, 4         ; m1 = 12, 18, 13, 19, 14, 20, 15, 21
1142
                                    ; m2 = 16, 22, 17, 23,  x,  x,  x,  x
1143
    SBUTTERFLY2 dq, 0, 1, 4         ; m0 =  0,  6, 12, 18,  1,  7, 13, 19
1144
                                    ; m1 =  2,  8, 14, 20,  3,  9, 15, 21
1145
    punpckldq  m3, m2               ; m3 =  4, 10, 16, 22,  5, 11, 17, 23
1146
    movq    [dstq      ], m0
1147
    movhps  [dstq+dst1q], m0
1148
    movq    [dstq+dst2q], m1
1149
    movhps  [dstq+dst3q], m1
1150
    movq    [dstq+dst4q], m3
1151
    movhps  [dstq+dst5q], m3
1152
    add      srcq, mmsize*6
1153
    add      dstq, mmsize/2
1154
    sub      lend, mmsize/4
1155
    jg .loop
1156
    REP_RET
1157
%endmacro
1158

1159
INIT_XMM sse2
1160
CONV_FLT_TO_S16P_6CH
1161
INIT_XMM ssse3
1162
CONV_FLT_TO_S16P_6CH
1163
%if HAVE_AVX_EXTERNAL
1164
INIT_XMM avx
1165
CONV_FLT_TO_S16P_6CH
1166
%endif
1167

1168
;------------------------------------------------------------------------------
1169
; void ff_conv_flt_to_fltp_2ch(float *const *dst, float *src, int len,
1170
;                              int channels);
1171
;------------------------------------------------------------------------------
1172

1173
%macro CONV_FLT_TO_FLTP_2CH 0
1174
cglobal conv_flt_to_fltp_2ch, 3,4,3, dst0, src, len, dst1
1175
    lea    lenq, [4*lend]
1176
    mov   dst1q, [dst0q+gprsize]
1177
    mov   dst0q, [dst0q        ]
1178
    lea    srcq, [srcq+2*lenq]
1179
    add   dst0q, lenq
1180
    add   dst1q, lenq
1181
    neg    lenq
1182
.loop:
1183
    mova     m0, [srcq+2*lenq       ]
1184
    mova     m1, [srcq+2*lenq+mmsize]
1185
    DEINT2_PS 0, 1, 2
1186
    mova  [dst0q+lenq], m0
1187
    mova  [dst1q+lenq], m1
1188
    add    lenq, mmsize
1189
    jl .loop
1190
    REP_RET
1191
%endmacro
1192

1193
INIT_XMM sse
1194
CONV_FLT_TO_FLTP_2CH
1195
%if HAVE_AVX_EXTERNAL
1196
INIT_XMM avx
1197
CONV_FLT_TO_FLTP_2CH
1198
%endif
1199

1200
;------------------------------------------------------------------------------
1201
; void ff_conv_flt_to_fltp_6ch(float *const *dst, float *src, int len,
1202
;                              int channels);
1203
;------------------------------------------------------------------------------
1204

1205
%macro CONV_FLT_TO_FLTP_6CH 0
1206
%if ARCH_X86_64
1207
cglobal conv_flt_to_fltp_6ch, 3,8,7, dst, src, len, dst1, dst2, dst3, dst4, dst5
1208
%else
1209
cglobal conv_flt_to_fltp_6ch, 2,7,7, dst, src, dst1, dst2, dst3, dst4, dst5
1210
%define lend dword r2m
1211
%endif
1212
    mov     dst1q, [dstq+  gprsize]
1213
    mov     dst2q, [dstq+2*gprsize]
1214
    mov     dst3q, [dstq+3*gprsize]
1215
    mov     dst4q, [dstq+4*gprsize]
1216
    mov     dst5q, [dstq+5*gprsize]
1217
    mov      dstq, [dstq          ]
1218
    sub     dst1q, dstq
1219
    sub     dst2q, dstq
1220
    sub     dst3q, dstq
1221
    sub     dst4q, dstq
1222
    sub     dst5q, dstq
1223
.loop:
1224
    mova       m0, [srcq+0*mmsize]  ; m0 =  0,  1,  2,  3
1225
    mova       m1, [srcq+1*mmsize]  ; m1 =  4,  5,  6,  7
1226
    mova       m2, [srcq+2*mmsize]  ; m2 =  8,  9, 10, 11
1227
    mova       m3, [srcq+3*mmsize]  ; m3 = 12, 13, 14, 15
1228
    mova       m4, [srcq+4*mmsize]  ; m4 = 16, 17, 18, 19
1229
    mova       m5, [srcq+5*mmsize]  ; m5 = 20, 21, 22, 23
1230

1231
    SBUTTERFLY2 dq, 0, 3, 6         ; m0 =  0, 12,  1, 13
1232
                                    ; m3 =  2, 14,  3, 15
1233
    SBUTTERFLY2 dq, 1, 4, 6         ; m1 =  4, 16,  5, 17
1234
                                    ; m4 =  6, 18,  7, 19
1235
    SBUTTERFLY2 dq, 2, 5, 6         ; m2 =  8, 20,  9, 21
1236
                                    ; m5 = 10, 22, 11, 23
1237
    SBUTTERFLY2 dq, 0, 4, 6         ; m0 =  0,  6, 12, 18
1238
                                    ; m4 =  1,  7, 13, 19
1239
    SBUTTERFLY2 dq, 3, 2, 6         ; m3 =  2,  8, 14, 20
1240
                                    ; m2 =  3,  9, 15, 21
1241
    SBUTTERFLY2 dq, 1, 5, 6         ; m1 =  4, 10, 16, 22
1242
                                    ; m5 =  5, 11, 17, 23
1243
    mova [dstq      ], m0
1244
    mova [dstq+dst1q], m4
1245
    mova [dstq+dst2q], m3
1246
    mova [dstq+dst3q], m2
1247
    mova [dstq+dst4q], m1
1248
    mova [dstq+dst5q], m5
1249
    add      srcq, mmsize*6
1250
    add      dstq, mmsize
1251
    sub      lend, mmsize/4
1252
    jg .loop
1253
    REP_RET
1254
%endmacro
1255

1256
INIT_XMM sse2
1257
CONV_FLT_TO_FLTP_6CH
1258
%if HAVE_AVX_EXTERNAL
1259
INIT_XMM avx
1260
CONV_FLT_TO_FLTP_6CH
1261
%endif
1262

1263
Product

Resources

Company