ref_bnorm_kernel.cpp source code [oneDNN/build/src/gpu/ocl/ref_bnorm_kernel.cpp]

1	namespace dnnl {
2	namespace impl {
3	namespace gpu {
4	namespace ocl {
5	const char ref_bnorm_kernel = R"==(/****************************************************************************** )==""\n"
6	R"==(* Copyright 2019-2022 Intel Corporation )==""\n"
7	R"==(* )==""\n"
8	R"==(* Licensed under the Apache License, Version 2.0 (the "License"); )==""\n"
9	R"==(* you may not use this file except in compliance with the License. )==""\n"
10	R"==(* You may obtain a copy of the License at )==""\n"
11	R"==(* )==""\n"
12	R"==(* http: )==""\n"
13	R"==(* )==""\n"
14	R"==(* Unless required by applicable law or agreed to in writing, software )==""\n"
15	R"==(* distributed under the License is distributed on an "AS IS" BASIS, )==""\n"
16	R"==(* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. )==""\n"
17	R"==(* See the License for the specific language governing permissions and )==""\n"
18	R"==(* limitations under the License. )==""\n"
19	R"==(*******************************************************************************/ )==""\n"
20	R"==(#if MB_BLOCK == 16 )==""\n"
21	R"==(#define MB16 )==""\n"
22	R"==(#define VECT_DT_N 8 )==""\n"
23	R"==(#elif VECTORIZE_CALC_STATS == 1 )==""\n"
24	R"==(#define VECT_DT_N VECT_SIZE )==""\n"
25	R"==(#else )==""\n"
26	R"==(#define VECT_DT_N 1 )==""\n"
27	R"==(#endif )==""\n"
28	R"==(#if VECT_DT_N == 1 )==""\n"
29	R"==(#define VECT_CHAR_TO_INT convert_int )==""\n"
30	R"==(#else )==""\n"
31	R"==(#define VECT_CHAR_TO_INT CONCAT2(convert_int, VECT_DT_N) )==""\n"
32	R"==(#endif )==""\n"
33	R"==(#if USE_16MB_UNROLL == 0 && (CALCULATE_STATS == 1 \|\| IS_BWD == 1) )==""\n"
34	R"==(int reduce_index(int x[5]) { )==""\n"
35	R"==(int dim[5] = {MB, IC, ID, IH, IW}; )==""\n"
36	R"==(dim[REDUCE_DIM_IDX] = 1; )==""\n"
37	R"==(return x[0] * (dim[2] * dim[3] * dim[4]) + x[2] * (dim[3] * dim[4]) )==""\n"
38	R"==(+ x[3] * dim[4] + x[4]; )==""\n"
39	R"==(} )==""\n"
40	R"==(#endif )==""\n"
41	R"==(#include "gpu/ocl/ocl_types.h" )==""\n"
42	R"==(#if IS_FWD == 1 )==""\n"
43	R"==(#if USE_16MB_UNROLL == 0 && CALCULATE_STATS == 1 )==""\n"
44	R"==(#if VECTORIZE_CALC_STATS == 1 )==""\n"
45	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
46	R"==(__kernel void calculate_mean(__global DATA_T src, __global float mean) { )==""\n"
47	R"==(int x[5]; )==""\n"
48	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
49	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
50	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
51	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
52	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
53	R"==(VECT_FLOAT_T vect_sum = 0; )==""\n"
54	R"==(for (int i = 0; i < REDUCE_DIM; i += SUB_GROUP_SIZE * VECT_DT_N) { )==""\n"
55	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
56	R"==(int src_off = SRC_OFF(x[0], x[1], x[2], x[3], x[4]); )==""\n"
57	R"==(vect_sum += CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
58	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&src[src_off]))); )==""\n"
59	R"==(} )==""\n"
60	R"==(#if VECT_DT_N == 1 )==""\n"
61	R"==(float sum = vect_sum; )==""\n"
62	R"==(#else )==""\n"
63	R"==(float sum = 0; )==""\n"
64	R"==(for (int i = 0; i < VECT_DT_N; ++i) { )==""\n"
65	R"==(sum += vect_sum[i]; )==""\n"
66	R"==(} )==""\n"
67	R"==(#endif )==""\n"
68	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
69	R"==(int reduce_idx = reduce_index(x); )==""\n"
70	R"==(float total_sum = sub_group_reduce_add(sum); )==""\n"
71	R"==(int local_id = get_sub_group_local_id(); )==""\n"
72	R"==(if (local_id == 0) { mean[reduce_idx * IC + x[1]] = total_sum; } )==""\n"
73	R"==(} )==""\n"
74	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
75	R"==(__kernel void calculate_variance( )==""\n"
76	R"==(__global DATA_T src, __global float mean, __global float *variance) { )==""\n"
77	R"==(int x[5]; )==""\n"
78	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
79	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
80	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
81	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
82	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
83	R"==(VECT_FLOAT_T mean_tmp = mean[x[1]]; )==""\n"
84	R"==(VECT_FLOAT_T vect_sum = 0; )==""\n"
85	R"==(for (int i = 0; i < REDUCE_DIM; i += SUB_GROUP_SIZE * VECT_DT_N) { )==""\n"
86	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
87	R"==(int src_off = SRC_OFF(x[0], x[1], x[2], x[3], x[4]); )==""\n"
88	R"==(VECT_FLOAT_T v0 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
89	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&src[src_off]))); )==""\n"
90	R"==(v0 -= mean_tmp; )==""\n"
91	R"==(vect_sum += v0 * v0; )==""\n"
92	R"==(} )==""\n"
93	R"==(#if VECT_DT_N == 1 )==""\n"
94	R"==(float sum = vect_sum; )==""\n"
95	R"==(#else )==""\n"
96	R"==(float sum = 0; )==""\n"
97	R"==(for (int i = 0; i < VECT_DT_N; ++i) { )==""\n"
98	R"==(sum += vect_sum[i]; )==""\n"
99	R"==(} )==""\n"
100	R"==(#endif )==""\n"
101	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
102	R"==(int reduce_idx = reduce_index(x); )==""\n"
103	R"==(float total_sum = sub_group_reduce_add(sum); )==""\n"
104	R"==(int local_id = get_sub_group_local_id(); )==""\n"
105	R"==(if (local_id == 0) { )==""\n"
106	R"==(variance += MB * ID * IH * IW * IC / REDUCE_DIM; )==""\n"
107	R"==(variance[reduce_idx * IC + x[1]] = total_sum; )==""\n"
108	R"==(} )==""\n"
109	R"==(} )==""\n"
110	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
111	R"==(__kernel void calculate_mean_variance( )==""\n"
112	R"==(__global DATA_T src, __global float mean, __global float *variance) { )==""\n"
113	R"==(#if SKIP_REDUCE_STATS == 1 )==""\n"
114	R"==(int x[5]; )==""\n"
115	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
116	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
117	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
118	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
119	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
120	R"==(VECT_FLOAT_T src_sum = 0; )==""\n"
121	R"==(VECT_FLOAT_T src_pow_sum = 0; )==""\n"
122	R"==(for (int i = 0; i < REDUCE_DIM; i += SUB_GROUP_SIZE * VECT_DT_N) { )==""\n"
123	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
124	R"==(int src_off = SRC_OFF(x[0], x[1], x[2], x[3], x[4]); )==""\n"
125	R"==(VECT_FLOAT_T src_vect = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
126	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&src[src_off]))); )==""\n"
127	R"==(src_sum += src_vect; )==""\n"
128	R"==(src_pow_sum += src_vect * src_vect; )==""\n"
129	R"==(} )==""\n"
130	R"==(#if VECT_DT_N == 1 )==""\n"
131	R"==(float sum = src_sum; )==""\n"
132	R"==(float pow_sum = src_pow_sum; )==""\n"
133	R"==(#else )==""\n"
134	R"==(float sum = 0; )==""\n"
135	R"==(float pow_sum = 0; )==""\n"
136	R"==(for (int i = 0; i < VECT_DT_N; ++i) { )==""\n"
137	R"==(sum += src_sum[i]; )==""\n"
138	R"==(pow_sum += src_pow_sum[i]; )==""\n"
139	R"==(} )==""\n"
140	R"==(#endif )==""\n"
141	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
142	R"==(int reduce_idx = reduce_index(x); )==""\n"
143	R"==(float total_sum = sub_group_reduce_add(sum); )==""\n"
144	R"==(float total_pow_sum = sub_group_reduce_add(pow_sum); )==""\n"
145	R"==(int local_id = get_sub_group_local_id(); )==""\n"
146	R"==(if (local_id == 0) { )==""\n"
147	R"==(float calc_mean = total_sum / (MB * ID * IH * IW); )==""\n"
148	R"==(float calc_variance )==""\n"
149	R"==(= total_pow_sum / (MB * ID * IH * IW) - calc_mean * calc_mean; )==""\n"
150	R"==(mean[x[1]] = calc_mean; )==""\n"
151	R"==(variance[x[1]] = calc_variance < 0 ? 0 : calc_variance; )==""\n"
152	R"==(} )==""\n"
153	R"==(#endif )==""\n"
154	R"==(} )==""\n"
155	R"==(#else )==""\n"
156	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
157	R"==(__kernel void calculate_mean(__global DATA_T src, __global float mean) { )==""\n"
158	R"==(int x[5]; )==""\n"
159	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
160	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
161	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
162	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
163	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
164	R"==(float sum = 0; )==""\n"
165	R"==(for (int i = 0; i < REDUCE_DIM; i++) { )==""\n"
166	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
167	R"==(sum += TO_DEF_ACC_DATA_T(src[SRC_OFF(x[0], x[1], x[2], x[3], x[4])]); )==""\n"
168	R"==(} )==""\n"
169	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
170	R"==(int reduce_idx = reduce_index(x); )==""\n"
171	R"==(mean[reduce_idx * IC + x[1]] = sum; )==""\n"
172	R"==(} )==""\n"
173	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
174	R"==(__kernel void calculate_variance( )==""\n"
175	R"==(__global DATA_T src, __global float mean, __global float *variance) { )==""\n"
176	R"==(int x[5]; )==""\n"
177	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
178	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
179	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
180	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
181	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
182	R"==(float sum = 0; )==""\n"
183	R"==(for (int i = 0; i < REDUCE_DIM; i++) { )==""\n"
184	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
185	R"==(DEF_ACC_DATA_T v0 )==""\n"
186	R"==(= TO_DEF_ACC_DATA_T(src[SRC_OFF(x[0], x[1], x[2], x[3], x[4])]) )==""\n"
187	R"==(- mean[x[1]]; )==""\n"
188	R"==(sum += v0 * v0; )==""\n"
189	R"==(} )==""\n"
190	R"==(variance += MB * ID * IH * IW * IC / REDUCE_DIM; )==""\n"
191	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
192	R"==(int reduce_idx = reduce_index(x); )==""\n"
193	R"==(variance[reduce_idx * IC + x[1]] = sum; )==""\n"
194	R"==(} )==""\n"
195	R"==(#endif )==""\n"
196	R"==(NAMED_KERNEL_ATTR(REDUCE) )==""\n"
197	R"==(__kernel void reduce_mean(__global float reduce_temp, __global float mean) { )==""\n"
198	R"==(const int c = GWS_GET_REDUCE_STAT_IC(); )==""\n"
199	R"==(reduce_temp += c; )==""\n"
200	R"==(float sum = 0.0f; )==""\n"
201	R"==(int reduce_size = MB * ID * IH * IW / REDUCE_DIM; )==""\n"
202	R"==(for (int i = 0; i < reduce_size; i++) { )==""\n"
203	R"==(sum += reduce_temp[i * IC]; )==""\n"
204	R"==(} )==""\n"
205	R"==(mean[c] = sum / (MB * ID * IH * IW); )==""\n"
206	R"==(} )==""\n"
207	R"==(NAMED_KERNEL_ATTR(REDUCE) )==""\n"
208	R"==(__kernel void reduce_variance( )==""\n"
209	R"==(__global float reduce_temp, __global float variance) { )==""\n"
210	R"==(const int c = GWS_GET_REDUCE_STAT_IC(); )==""\n"
211	R"==(#if SAVE_STATS == 0 )==""\n"
212	R"==(variance += IC; )==""\n"
213	R"==(#endif )==""\n"
214	R"==(float sum = 0.0f; )==""\n"
215	R"==(int reduce_size = MB * ID * IH * IW / REDUCE_DIM; )==""\n"
216	R"==(reduce_temp += reduce_size * IC + c; )==""\n"
217	R"==(for (int i = 0; i < reduce_size; i++) )==""\n"
218	R"==(sum += reduce_temp[i * IC]; )==""\n"
219	R"==(variance[c] = sum / (MB * ID * IH * IW); )==""\n"
220	R"==(} )==""\n"
221	R"==(#endif )==""\n"
222	R"==(KERNEL_ATTR )==""\n"
223	R"==(__kernel void ref_bnorm_fwd(__global DATA_T src, __global float mean, )==""\n"
224	R"==(__global float variance, __global DATA_T dst, __global float *scale, )==""\n"
225	R"==(__global float shift, __global char ws, float eps, )==""\n"
226	R"==(__global DATA_T *src_add) { )==""\n"
227	R"==(const int n = GWS_GET_MB(); )==""\n"
228	R"==(const int c = GWS_GET_IC(); )==""\n"
229	R"==(const int d = GWS_GET_ID(); )==""\n"
230	R"==(const int h = GWS_GET_IH(); )==""\n"
231	R"==(const int w = GWS_GET_IW(); )==""\n"
232	R"==(#if USE_SCALE == 1 )==""\n"
233	R"==(float sm = scale[c]; )==""\n"
234	R"==(#else )==""\n"
235	R"==(float sm = 1; )==""\n"
236	R"==(#endif )==""\n"
237	R"==(#if USE_SHIFT == 1 )==""\n"
238	R"==(float sv = shift[c]; )==""\n"
239	R"==(#else )==""\n"
240	R"==(float sv = 0; )==""\n"
241	R"==(#endif )==""\n"
242	R"==(#if SAVE_STATS == 0 && CALCULATE_STATS == 1 )==""\n"
243	R"==(variance += IC; )==""\n"
244	R"==(#endif )==""\n"
245	R"==(float v_mean = mean[c]; )==""\n"
246	R"==(float v_variance = variance[c]; )==""\n"
247	R"==(const int off = SRC_OFF(n, c, d, h, w); )==""\n"
248	R"==(float v0 = TO_DEF_ACC_DATA_T(src[off]); )==""\n"
249	R"==(float sqrt_variance = 1.0f / sqrt(v_variance + eps); )==""\n"
250	R"==(float bn_res = sm * (v0 - v_mean) * sqrt_variance + sv; )==""\n"
251	R"==(#if FUSE_BN_ADD_RELU == 1 )==""\n"
252	R"==(bn_res += TO_DEF_ACC_DATA_T(src_add[off]); )==""\n"
253	R"==(#endif )==""\n"
254	R"==(#if FUSE_BN_RELU == 1 )==""\n"
255	R"==(if (bn_res <= 0) { )==""\n"
256	R"==(bn_res = 0; )==""\n"
257	R"==(#if IS_TRAINING == 1 )==""\n"
258	R"==(ws[off] = 0; )==""\n"
259	R"==(} else { )==""\n"
260	R"==(ws[off] = -1; )==""\n"
261	R"==(#endif )==""\n"
262	R"==(} )==""\n"
263	R"==(#endif )==""\n"
264	R"==(#if WITH_RELU )==""\n"
265	R"==(bn_res = max(bn_res, 0.0f); )==""\n"
266	R"==(#endif )==""\n"
267	R"==(dst[off] = TO_DATA_T(bn_res); )==""\n"
268	R"==(} )==""\n"
269	R"==(#endif )==""\n"
270	R"==(#if IS_BWD == 1 )==""\n"
271	R"==(#if USE_16MB_UNROLL == 1 )==""\n"
272	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
273	R"==(__kernel void calculate_stats(__global DATA_T src, __global float mean, )==""\n"
274	R"==(__global DATA_T diff_dst, __global char ws, )==""\n"
275	R"==(__global float *reduce_temp) { )==""\n"
276	R"==(const int mb = GWS_GET_STAT_MB(); )==""\n"
277	R"==(const int stat_mb_block_idx = mb / MB_BLOCK; )==""\n"
278	R"==(const int c = GWS_GET_STAT_IC(); )==""\n"
279	R"==(const int sp_beg = GWS_GET_STAT_SP(); )==""\n"
280	R"==(const int stat_sp_block = GWS_GET_STAT_SP_BLOCK(); )==""\n"
281	R"==(const int stat_sp_nblocks = ID * IH * IW / stat_sp_block; )==""\n"
282	R"==(const int stat_sp_block_idx = sp_beg / stat_sp_block; )==""\n"
283	R"==(const int mb_sp_idx )==""\n"
284	R"==(= stat_mb_block_idx * stat_sp_nblocks + stat_sp_block_idx; )==""\n"
285	R"==(const int s_off = c * ID * IH * IW * MB_BLOCK + mb * IC * ID * IH * IW )==""\n"
286	R"==(+ sp_beg * MB_BLOCK * IC_BLOCK; )==""\n"
287	R"==(src += s_off; )==""\n"
288	R"==(diff_dst += s_off; )==""\n"
289	R"==(#if FUSE_BN_RELU == 1 )==""\n"
290	R"==(ws += s_off; )==""\n"
291	R"==(#endif )==""\n"
292	R"==(VECT_FLOAT_T diff_gamma0 = 0.0f, diff_beta0 = 0.0f; )==""\n"
293	R"==(VECT_FLOAT_T diff_gamma1 = 0.0f, diff_beta1 = 0.0f; )==""\n"
294	R"==(float v_mean = as_float( )==""\n"
295	R"==(intel_sub_group_block_read((const __global uint *)&mean[c])); )==""\n"
296	R"==(for (int sp = sp_beg; sp < sp_beg + stat_sp_block; sp++) { )==""\n"
297	R"==(VECT_FLOAT_T dd0 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
298	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&diff_dst[0]))); )==""\n"
299	R"==(VECT_FLOAT_T ss0 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
300	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&src[0]))); )==""\n"
301	R"==(#ifdef MB16 )==""\n"
302	R"==(VECT_FLOAT_T dd1 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T(VECT_BLOCK_READ( )==""\n"
303	R"==((const __global BLOCK_DATA_T )&diff_dst[8 16]))); )==""\n"
304	R"==(VECT_FLOAT_T ss1 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
305	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T )&src[8 16]))); )==""\n"
306	R"==(#endif )==""\n"
307	R"==(#if FUSE_BN_RELU == 1 )==""\n"
308	R"==(VECT_INT_T ws0 = VECT_CHAR_TO_INT(AS_VECT_CHAR_T( )==""\n"
309	R"==(VECT_UCHAR_READ((const __global uchar *)&ws[0]))); )==""\n"
310	R"==(dd0 = select((VECT_FLOAT_T)0.0f, dd0, ws0); )==""\n"
311	R"==(#ifdef MB16 )==""\n"
312	R"==(VECT_INT_T ws1 = VECT_CHAR_TO_INT(AS_VECT_CHAR_T( )==""\n"
313	R"==(VECT_UCHAR_READ((const __global uchar )&ws[8 16]))); )==""\n"
314	R"==(dd1 = select((VECT_FLOAT_T)0.0f, dd1, ws1); )==""\n"
315	R"==(#endif )==""\n"
316	R"==(ws += MB_BLOCK * IC_BLOCK; )==""\n"
317	R"==(#endif )==""\n"
318	R"==(diff_gamma0 = fma((ss0 - (VECT_FLOAT_T)v_mean), dd0, diff_gamma0); )==""\n"
319	R"==(diff_beta0 += dd0; )==""\n"
320	R"==(#ifdef MB16 )==""\n"
321	R"==(diff_gamma1 = fma((ss1 - (VECT_FLOAT_T)v_mean), dd1, diff_gamma1); )==""\n"
322	R"==(diff_beta1 += dd1; )==""\n"
323	R"==(#endif )==""\n"
324	R"==(src += MB_BLOCK * IC_BLOCK; )==""\n"
325	R"==(diff_dst += MB_BLOCK * IC_BLOCK; )==""\n"
326	R"==(} )==""\n"
327	R"==(#ifdef MB16 )==""\n"
328	R"==(float v_diff_gamma = 0.0f, v_diff_beta = 0.0; )==""\n"
329	R"==(for (int i = 0; i < 8; i++) { )==""\n"
330	R"==(v_diff_gamma += diff_gamma0[i] + diff_gamma1[i]; )==""\n"
331	R"==(v_diff_beta += diff_beta0[i] + diff_beta1[i]; )==""\n"
332	R"==(} )==""\n"
333	R"==(#else )==""\n"
334	R"==(float v_diff_gamma = diff_gamma0, v_diff_beta = diff_beta0; )==""\n"
335	R"==(#endif )==""\n"
336	R"==(intel_sub_group_block_write( )==""\n"
337	R"==((__global uint )&reduce_temp[mb_sp_idx IC + c], )==""\n"
338	R"==(as_uint(v_diff_gamma)); )==""\n"
339	R"==(intel_sub_group_block_write( )==""\n"
340	R"==((__global uint )&reduce_temp[REDUCE_STAT_NBLOCKS IC )==""\n"
341	R"==(+ mb_sp_idx * IC + c], )==""\n"
342	R"==(as_uint(v_diff_beta)); )==""\n"
343	R"==(} )==""\n"
344	R"==(NAMED_KERNEL_ATTR(REDUCE) )==""\n"
345	R"==(__kernel void reduce_stats(__global float *reduce_temp, )==""\n"
346	R"==(__global float diff_scale, __global float diff_shift, )==""\n"
347	R"==(__global float *variance, float eps) { )==""\n"
348	R"==(const int c = GWS_GET_REDUCE_STAT_IC(); )==""\n"
349	R"==(reduce_temp += c; )==""\n"
350	R"==(float diff_gamma = 0.0f, diff_beta = 0.0f; )==""\n"
351	R"==(for (int i = 0; i < REDUCE_STAT_NBLOCKS; i++) { )==""\n"
352	R"==(diff_gamma += reduce_temp[i * IC]; )==""\n"
353	R"==(diff_beta += reduce_temp[REDUCE_STAT_NBLOCKS * IC + i * IC]; )==""\n"
354	R"==(} )==""\n"
355	R"==(float sqrt_variance = 1.0f / sqrt(variance[c] + eps); )==""\n"
356	R"==(diff_scale[c] = diff_gamma * sqrt_variance; )==""\n"
357	R"==(#if DIFF_SHIFT == 1 )==""\n"
358	R"==(diff_shift[c] = diff_beta; )==""\n"
359	R"==(#else )==""\n"
360	R"==(diff_shift[REDUCE_STAT_NBLOCKS * IC + c] = diff_beta; )==""\n"
361	R"==(#endif )==""\n"
362	R"==(} )==""\n"
363	R"==(#else )==""\n"
364	R"==(NAMED_KERNEL_ATTR(CALC) )==""\n"
365	R"==(__kernel void calculate_stats(__global DATA_T src, __global float mean, )==""\n"
366	R"==(__global DATA_T diff_dst, __global char ws, )==""\n"
367	R"==(__global float *reduce_temp) { )==""\n"
368	R"==(float diff_gamma = 0; )==""\n"
369	R"==(float diff_beta = 0; )==""\n"
370	R"==(int x[5]; )==""\n"
371	R"==(x[0] = GWS_GET_STAT_MB(); )==""\n"
372	R"==(x[1] = GWS_GET_STAT_IC(); )==""\n"
373	R"==(x[2] = GWS_GET_STAT_ID(); )==""\n"
374	R"==(x[3] = GWS_GET_STAT_IH(); )==""\n"
375	R"==(x[4] = GWS_GET_STAT_IW(); )==""\n"
376	R"==(for (int i = 0; i < REDUCE_DIM; i++) { )==""\n"
377	R"==(x[REDUCE_DIM_IDX] = i; )==""\n"
378	R"==(int off = SRC_OFF(x[0], x[1], x[2], x[3], x[4]); )==""\n"
379	R"==(float dd = CONVERT_FLOAT_T(diff_dst[off]); )==""\n"
380	R"==(#if FUSE_BN_RELU == 1 )==""\n"
381	R"==(if (!ws[off]) dd = 0; )==""\n"
382	R"==(#endif )==""\n"
383	R"==(diff_gamma += (CONVERT_FLOAT_T(src[off]) - mean[x[1]]) * dd; )==""\n"
384	R"==(diff_beta += dd; )==""\n"
385	R"==(} )==""\n"
386	R"==(int ss_off = MB * ID * IH * IW * IC / REDUCE_DIM; )==""\n"
387	R"==(x[REDUCE_DIM_IDX] = 0; )==""\n"
388	R"==(int reduce_idx = reduce_index(x); )==""\n"
389	R"==(reduce_temp[reduce_idx * IC + x[1]] = diff_gamma; )==""\n"
390	R"==(reduce_temp[ss_off + reduce_idx * IC + x[1]] = diff_beta; )==""\n"
391	R"==(} )==""\n"
392	R"==(NAMED_KERNEL_ATTR(REDUCE) )==""\n"
393	R"==(__kernel void reduce_stats(__global float *reduce_temp, )==""\n"
394	R"==(__global float diff_scale, __global float diff_shift, )==""\n"
395	R"==(__global float *variance, float eps) { )==""\n"
396	R"==(const int c = GWS_GET_REDUCE_STAT_IC(); )==""\n"
397	R"==(float diff_gamma = 0.0f; )==""\n"
398	R"==(float diff_beta = 0.0f; )==""\n"
399	R"==(int reduce_size = MB * ID * IH * IW / REDUCE_DIM; )==""\n"
400	R"==(for (int i = 0; i < reduce_size; i++) { )==""\n"
401	R"==(diff_gamma += reduce_temp[c + i * IC]; )==""\n"
402	R"==(diff_beta += reduce_temp[IC * reduce_size + c + i * IC]; )==""\n"
403	R"==(} )==""\n"
404	R"==(float sqrt_variance = 1.0f / sqrt(variance[c] + eps); )==""\n"
405	R"==(diff_scale[c] = diff_gamma * sqrt_variance; )==""\n"
406	R"==(#if DIFF_SHIFT == 1 )==""\n"
407	R"==(diff_shift[c] = diff_beta; )==""\n"
408	R"==(#else )==""\n"
409	R"==(diff_shift[IC * reduce_size + c] = diff_beta; )==""\n"
410	R"==(#endif )==""\n"
411	R"==(} )==""\n"
412	R"==(#endif )==""\n"
413	R"==(KERNEL_ATTR )==""\n"
414	R"==(__kernel void ref_bnorm_bwd(__global DATA_T src, __global float mean, )==""\n"
415	R"==(__global float variance, __global DATA_T diff_dst, )==""\n"
416	R"==(__global float scale, __global char ws, __global DATA_T *diff_src, )==""\n"
417	R"==(__global float diff_scale, __global float diff_shift, float eps, )==""\n"
418	R"==(__global DATA_T *diff_src_add) { )==""\n"
419	R"==(#if USE_16MB_UNROLL == 1 )==""\n"
420	R"==(const int n = GWS_GET_MB(); )==""\n"
421	R"==(const int c = GWS_GET_IC(); )==""\n"
422	R"==(const int d = GWS_GET_ID(); )==""\n"
423	R"==(const int h = GWS_GET_IH(); )==""\n"
424	R"==(const int w = GWS_GET_IW(); )==""\n"
425	R"==(#if USE_SCALE == 1 )==""\n"
426	R"==(float gamma = as_float( )==""\n"
427	R"==(intel_sub_group_block_read((const __global uint *)&scale[c])); )==""\n"
428	R"==(#else )==""\n"
429	R"==(float gamma = 1.0f; )==""\n"
430	R"==(#endif )==""\n"
431	R"==(float v_variance = as_float( )==""\n"
432	R"==(intel_sub_group_block_read((const __global uint *)&variance[c])); )==""\n"
433	R"==(float sqrt_variance = 1.0f / sqrt(v_variance + eps); )==""\n"
434	R"==(#if CALCULATE_DIFF_STATS == 1 )==""\n"
435	R"==(float v_mean = as_float( )==""\n"
436	R"==(intel_sub_group_block_read((const __global uint *)&mean[c])); )==""\n"
437	R"==(float diff_gamma = as_float( )==""\n"
438	R"==(intel_sub_group_block_read((const __global uint *)&diff_scale[c])); )==""\n"
439	R"==(#if DIFF_SHIFT == 1 )==""\n"
440	R"==(float diff_beta = as_float( )==""\n"
441	R"==(intel_sub_group_block_read((const __global uint *)&diff_shift[c])); )==""\n"
442	R"==(#else )==""\n"
443	R"==(float diff_beta = as_float(intel_sub_group_block_read( )==""\n"
444	R"==((const __global uint )&diff_shift[REDUCE_STAT_NBLOCKS IC + c])); )==""\n"
445	R"==(#endif )==""\n"
446	R"==(#endif )==""\n"
447	R"==(const uint d_off = SRC_OFF(n, c, d, h, w); )==""\n"
448	R"==(diff_src += d_off; )==""\n"
449	R"==(#if FUSE_BN_ADD_RELU == 1 )==""\n"
450	R"==(diff_src_add += d_off; )==""\n"
451	R"==(#endif )==""\n"
452	R"==(diff_dst += d_off; )==""\n"
453	R"==(src += d_off; )==""\n"
454	R"==(VECT_FLOAT_T blockD0 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
455	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&diff_dst[0]))); )==""\n"
456	R"==(#ifdef MB16 )==""\n"
457	R"==(VECT_FLOAT_T blockD1 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T(VECT_BLOCK_READ( )==""\n"
458	R"==((const __global BLOCK_DATA_T )&diff_dst[8 IC_BLOCK]))); )==""\n"
459	R"==(#endif )==""\n"
460	R"==(#if FUSE_BN_RELU == 1 )==""\n"
461	R"==(ws += d_off; )==""\n"
462	R"==(VECT_INT_T blockWS0 = VECT_CHAR_TO_INT( )==""\n"
463	R"==(AS_VECT_CHAR_T(VECT_UCHAR_READ((const __global uchar *)&ws[0]))); )==""\n"
464	R"==(blockD0 = select((VECT_FLOAT_T)0.0f, blockD0, blockWS0); )==""\n"
465	R"==(#if FUSE_BN_ADD_RELU == 1 )==""\n"
466	R"==(VECT_BLOCK_WRITE((__global BLOCK_DATA_T *)&diff_src_add[0], )==""\n"
467	R"==(AS_VECT_BLOCK_DATA_T(CONVERT_VECTOR_DATA_T(blockD0))); )==""\n"
468	R"==(#endif )==""\n"
469	R"==(#ifdef MB16 )==""\n"
470	R"==(VECT_INT_T blockWS1 = VECT_CHAR_TO_INT(AS_VECT_CHAR_T( )==""\n"
471	R"==(VECT_UCHAR_READ((const __global uchar )&ws[8 IC_BLOCK]))); )==""\n"
472	R"==(blockD1 = select((VECT_FLOAT_T)0.0f, blockD1, blockWS1); )==""\n"
473	R"==(#if FUSE_BN_ADD_RELU == 1 )==""\n"
474	R"==(VECT_BLOCK_WRITE((__global BLOCK_DATA_T )&diff_src_add[8 16], )==""\n"
475	R"==(AS_VECT_BLOCK_DATA_T(CONVERT_VECTOR_DATA_T(blockD1))); )==""\n"
476	R"==(#endif )==""\n"
477	R"==(#endif )==""\n"
478	R"==(#endif )==""\n"
479	R"==(gamma *= sqrt_variance; )==""\n"
480	R"==(#if CALCULATE_DIFF_STATS == 1 )==""\n"
481	R"==(diff_gamma *= sqrt_variance; )==""\n"
482	R"==(diff_gamma /= (MB * ID * IH * IW); )==""\n"
483	R"==(diff_beta /= (MB * ID * IH * IW); )==""\n"
484	R"==(VECT_FLOAT_T blockS0 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T( )==""\n"
485	R"==(VECT_BLOCK_READ((const __global BLOCK_DATA_T *)&src[0]))); )==""\n"
486	R"==(blockD0 -= fma((VECT_FLOAT_T)diff_gamma, (blockS0 - (VECT_FLOAT_T)v_mean), )==""\n"
487	R"==((VECT_FLOAT_T)diff_beta); )==""\n"
488	R"==(#ifdef MB16 )==""\n"
489	R"==(VECT_FLOAT_T blockS1 = CONVERT_VECT_FLOAT_T(AS_VECT_DATA_T(VECT_BLOCK_READ( )==""\n"
490	R"==((const __global BLOCK_DATA_T )&src[8 IC_BLOCK]))); )==""\n"
491	R"==(blockD1 -= fma((VECT_FLOAT_T)diff_gamma, (blockS1 - (VECT_FLOAT_T)v_mean), )==""\n"
492	R"==((VECT_FLOAT_T)diff_beta); )==""\n"
493	R"==(#endif )==""\n"
494	R"==(#endif )==""\n"
495	R"==(blockD0 *= gamma; )==""\n"
496	R"==(VECT_BLOCK_WRITE((__global BLOCK_DATA_T *)&diff_src[0], )==""\n"
497	R"==(AS_VECT_BLOCK_DATA_T(CONVERT_VECTOR_DATA_T(blockD0))); )==""\n"
498	R"==(#ifdef MB16 )==""\n"
499	R"==(blockD1 *= gamma; )==""\n"
500	R"==(VECT_BLOCK_WRITE((__global BLOCK_DATA_T )&diff_src[8 16], )==""\n"
501	R"==(AS_VECT_BLOCK_DATA_T(CONVERT_VECTOR_DATA_T(blockD1))); )==""\n"
502	R"==(#endif )==""\n"
503	R"==(#else )==""\n"
504	R"==(const int n = GWS_GET_MB(); )==""\n"
505	R"==(const int c = GWS_GET_IC(); )==""\n"
506	R"==(const int d = GWS_GET_ID(); )==""\n"
507	R"==(const int h = GWS_GET_IH(); )==""\n"
508	R"==(const int w = GWS_GET_IW(); )==""\n"
509	R"==(float v_variance = variance[c]; )==""\n"
510	R"==(float sqrt_variance = 1.0f / sqrt(v_variance + eps); )==""\n"
511	R"==(#if USE_SCALE == 1 )==""\n"
512	R"==(float gamma = scale[c]; )==""\n"
513	R"==(#else )==""\n"
514	R"==(float gamma = 1; )==""\n"
515	R"==(#endif )==""\n"
516	R"==(#if CALCULATE_DIFF_STATS == 1 )==""\n"
517	R"==(float v_mean = mean[c]; )==""\n"
518	R"==(float diff_gamma = diff_scale[c]; )==""\n"
519	R"==(#if DIFF_SHIFT == 1 )==""\n"
520	R"==(float diff_beta = diff_shift[c]; )==""\n"
521	R"==(#else )==""\n"
522	R"==(int reduce_size = MB * ID * IH * IW / REDUCE_DIM; )==""\n"
523	R"==(float diff_beta = diff_shift[reduce_size * IC + c]; )==""\n"
524	R"==(#endif )==""\n"
525	R"==(#endif )==""\n"
526	R"==(const int off = SRC_OFF(n, c, d, h, w); )==""\n"
527	R"==(float dd = TO_DEF_ACC_DATA_T(diff_dst[off]); )==""\n"
528	R"==(#if FUSE_BN_RELU == 1 )==""\n"
529	R"==(if (!ws[off]) dd = 0; )==""\n"
530	R"==(#if FUSE_BN_ADD_RELU == 1 )==""\n"
531	R"==(diff_src_add[off] = TO_DATA_T(dd); )==""\n"
532	R"==(#endif )==""\n"
533	R"==(#endif )==""\n"
534	R"==(float v_diff_src = dd; )==""\n"
535	R"==(#if CALCULATE_DIFF_STATS == 1 )==""\n"
536	R"==(v_diff_src -= diff_beta / (MB * ID * IH * IW) )==""\n"
537	R"==(+ (CONVERT_FLOAT_T(src[off]) - v_mean) * diff_gamma * sqrt_variance )==""\n"
538	R"==(/ (MB * ID * IH * IW); )==""\n"
539	R"==(#endif )==""\n"
540	R"==(v_diff_src = gamma sqrt_variance; )==""\n"
541	R"==(diff_src[off] = TO_DATA_T(v_diff_src); )==""\n"
542	R"==(#endif )==""\n"
543	R"==(} )==""\n"
544	R"==(#endif )==""\n"
545	R"==()==";
546	}
547	}
548	}
549	}

Browse the source code of oneDNN/build/src/gpu/ocl/ref_bnorm_kernel.cpp