WebSVN - shark - Blame - Rev 96 - /shark/trunk/ports/png/pngvcrd.c

Rev	Author	Line No.	Line
96	giacomo	1	/* pngvcrd.c - mixed C/assembler version of utilities to read a PNG file
		2	*
		3	* For Intel x86 CPU and Microsoft Visual C++ compiler
		4	*
		5	* libpng version 1.2.5 - October 3, 2002
		6	* For conditions of distribution and use, see copyright notice in png.h
		7	* Copyright (c) 1998-2002 Glenn Randers-Pehrson
		8	* Copyright (c) 1998, Intel Corporation
		9	*
		10	* Contributed by Nirav Chhatrapati, Intel Corporation, 1998
		11	* Interface to libpng contributed by Gilles Vollant, 1999
		12	*
		13	*
		14	* In png_do_read_interlace() in libpng versions 1.0.3a through 1.0.4d,
		15	* a sign error in the post-MMX cleanup code for each pixel_depth resulted
		16	* in bad pixels at the beginning of some rows of some images, and also
		17	* (due to out-of-range memory reads and writes) caused heap corruption
		18	* when compiled with MSVC 6.0. The error was fixed in version 1.0.4e.
		19	*
		20	* [png_read_filter_row_mmx_avg() bpp == 2 bugfix, GRR 20000916]
		21	*
		22	* [runtime MMX configuration, GRR 20010102]
		23	*
		24	*/
		25
		26	#define PNG_INTERNAL
		27	#include "png.h"
		28
		29	#if defined(PNG_ASSEMBLER_CODE_SUPPORTED) && defined(PNG_USE_PNGVCRD)
		30
		31	static int mmx_supported=2;
		32
		33
		34	int PNGAPI
		35	png_mmx_support(void)
		36	{
		37	int mmx_supported_local = 0;
		38	_asm {
		39	push ebx //CPUID will trash these
		40	push ecx
		41	push edx
		42
		43	pushfd //Save Eflag to stack
		44	pop eax //Get Eflag from stack into eax
		45	mov ecx, eax //Make another copy of Eflag in ecx
		46	xor eax, 0x200000 //Toggle ID bit in Eflag [i.e. bit(21)]
		47	push eax //Save modified Eflag back to stack
		48
		49	popfd //Restored modified value back to Eflag reg
		50	pushfd //Save Eflag to stack
		51	pop eax //Get Eflag from stack
		52	push ecx // save original Eflag to stack
		53	popfd // restore original Eflag
		54	xor eax, ecx //Compare the new Eflag with the original Eflag
		55	jz NOT_SUPPORTED //If the same, CPUID instruction is not supported,
		56	//skip following instructions and jump to
		57	//NOT_SUPPORTED label
		58
		59	xor eax, eax //Set eax to zero
		60
		61	_asm _emit 0x0f //CPUID instruction (two bytes opcode)
		62	_asm _emit 0xa2
		63
		64	cmp eax, 1 //make sure eax return non-zero value
		65	jl NOT_SUPPORTED //If eax is zero, mmx not supported
		66
		67	xor eax, eax //set eax to zero
		68	inc eax //Now increment eax to 1. This instruction is
		69	//faster than the instruction "mov eax, 1"
		70
		71	_asm _emit 0x0f //CPUID instruction
		72	_asm _emit 0xa2
		73
		74	and edx, 0x00800000 //mask out all bits but mmx bit(24)
		75	cmp edx, 0 // 0 = mmx not supported
		76	jz NOT_SUPPORTED // non-zero = Yes, mmx IS supported
		77
		78	mov mmx_supported_local, 1 //set return value to 1
		79
		80	NOT_SUPPORTED:
		81	mov eax, mmx_supported_local //move return value to eax
		82	pop edx //CPUID trashed these
		83	pop ecx
		84	pop ebx
		85	}
		86
		87	//mmx_supported_local=0; // test code for force don't support MMX
		88	//printf("MMX : %u (1=MMX supported)\n",mmx_supported_local);
		89
		90	mmx_supported = mmx_supported_local;
		91	return mmx_supported_local;
		92	}
		93
		94	/* Combines the row recently read in with the previous row.
		95	This routine takes care of alpha and transparency if requested.
		96	This routine also handles the two methods of progressive display
		97	of interlaced images, depending on the mask value.
		98	The mask value describes which pixels are to be combined with
		99	the row. The pattern always repeats every 8 pixels, so just 8
		100	bits are needed. A one indicates the pixel is to be combined; a
		101	zero indicates the pixel is to be skipped. This is in addition
		102	to any alpha or transparency value associated with the pixel. If
		103	you want all pixels to be combined, pass 0xff (255) in mask. */
		104
		105	/* Use this routine for x86 platform - uses faster MMX routine if machine
		106	supports MMX */
		107
		108	void /* PRIVATE */
		109	png_combine_row(png_structp png_ptr, png_bytep row, int mask)
		110	{
		111	#ifdef PNG_USE_LOCAL_ARRAYS
		112	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
		113	#endif
		114
		115	png_debug(1,"in png_combine_row_asm\n");
		116
		117	if (mmx_supported == 2) {
		118	/* this should have happened in png_init_mmx_flags() already */
		119	png_warning(png_ptr, "asm_flags may not have been initialized");
		120	png_mmx_support();
		121	}
		122
		123	if (mask == 0xff)
		124	{
		125	png_memcpy(row, png_ptr->row_buf + 1,
		126	(png_size_t)((png_ptr->width * png_ptr->row_info.pixel_depth + 7) >> 3));
		127	}
		128	/* GRR: add "else if (mask == 0)" case?
		129	* or does png_combine_row() not even get called in that case? */
		130	else
		131	{
		132	switch (png_ptr->row_info.pixel_depth)
		133	{
		134	case 1:
		135	{
		136	png_bytep sp;
		137	png_bytep dp;
		138	int s_inc, s_start, s_end;
		139	int m;
		140	int shift;
		141	png_uint_32 i;
		142
		143	sp = png_ptr->row_buf + 1;
		144	dp = row;
		145	m = 0x80;
		146	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		147	if (png_ptr->transformations & PNG_PACKSWAP)
		148	{
		149	s_start = 0;
		150	s_end = 7;
		151	s_inc = 1;
		152	}
		153	else
		154	#endif
		155	{
		156	s_start = 7;
		157	s_end = 0;
		158	s_inc = -1;
		159	}
		160
		161	shift = s_start;
		162
		163	for (i = 0; i < png_ptr->width; i++)
		164	{
		165	if (m & mask)
		166	{
		167	int value;
		168
		169	value = (*sp >> shift) & 0x1;
		170	*dp &= (png_byte)((0x7f7f >> (7 - shift)) & 0xff);
		171	*dp \|= (png_byte)(value << shift);
		172	}
		173
		174	if (shift == s_end)
		175	{
		176	shift = s_start;
		177	sp++;
		178	dp++;
		179	}
		180	else
		181	shift += s_inc;
		182
		183	if (m == 1)
		184	m = 0x80;
		185	else
		186	m >>= 1;
		187	}
		188	break;
		189	}
		190
		191	case 2:
		192	{
		193	png_bytep sp;
		194	png_bytep dp;
		195	int s_start, s_end, s_inc;
		196	int m;
		197	int shift;
		198	png_uint_32 i;
		199	int value;
		200
		201	sp = png_ptr->row_buf + 1;
		202	dp = row;
		203	m = 0x80;
		204	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		205	if (png_ptr->transformations & PNG_PACKSWAP)
		206	{
		207	s_start = 0;
		208	s_end = 6;
		209	s_inc = 2;
		210	}
		211	else
		212	#endif
		213	{
		214	s_start = 6;
		215	s_end = 0;
		216	s_inc = -2;
		217	}
		218
		219	shift = s_start;
		220
		221	for (i = 0; i < png_ptr->width; i++)
		222	{
		223	if (m & mask)
		224	{
		225	value = (*sp >> shift) & 0x3;
		226	*dp &= (png_byte)((0x3f3f >> (6 - shift)) & 0xff);
		227	*dp \|= (png_byte)(value << shift);
		228	}
		229
		230	if (shift == s_end)
		231	{
		232	shift = s_start;
		233	sp++;
		234	dp++;
		235	}
		236	else
		237	shift += s_inc;
		238	if (m == 1)
		239	m = 0x80;
		240	else
		241	m >>= 1;
		242	}
		243	break;
		244	}
		245
		246	case 4:
		247	{
		248	png_bytep sp;
		249	png_bytep dp;
		250	int s_start, s_end, s_inc;
		251	int m;
		252	int shift;
		253	png_uint_32 i;
		254	int value;
		255
		256	sp = png_ptr->row_buf + 1;
		257	dp = row;
		258	m = 0x80;
		259	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		260	if (png_ptr->transformations & PNG_PACKSWAP)
		261	{
		262	s_start = 0;
		263	s_end = 4;
		264	s_inc = 4;
		265	}
		266	else
		267	#endif
		268	{
		269	s_start = 4;
		270	s_end = 0;
		271	s_inc = -4;
		272	}
		273	shift = s_start;
		274
		275	for (i = 0; i < png_ptr->width; i++)
		276	{
		277	if (m & mask)
		278	{
		279	value = (*sp >> shift) & 0xf;
		280	*dp &= (png_byte)((0xf0f >> (4 - shift)) & 0xff);
		281	*dp \|= (png_byte)(value << shift);
		282	}
		283
		284	if (shift == s_end)
		285	{
		286	shift = s_start;
		287	sp++;
		288	dp++;
		289	}
		290	else
		291	shift += s_inc;
		292	if (m == 1)
		293	m = 0x80;
		294	else
		295	m >>= 1;
		296	}
		297	break;
		298	}
		299
		300	case 8:
		301	{
		302	png_bytep srcptr;
		303	png_bytep dstptr;
		304	png_uint_32 len;
		305	int m;
		306	int diff, unmask;
		307
		308	__int64 mask0=0x0102040810204080;
		309
		310	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
		311	/* && mmx_supported */ )
		312	{
		313	srcptr = png_ptr->row_buf + 1;
		314	dstptr = row;
		315	m = 0x80;
		316	unmask = ~mask;
		317	len = png_ptr->width &~7; //reduce to multiple of 8
		318	diff = png_ptr->width & 7; //amount lost
		319
		320	_asm
		321	{
		322	movd mm7, unmask //load bit pattern
		323	psubb mm6,mm6 //zero mm6
		324	punpcklbw mm7,mm7
		325	punpcklwd mm7,mm7
		326	punpckldq mm7,mm7 //fill register with 8 masks
		327
		328	movq mm0,mask0
		329
		330	pand mm0,mm7 //nonzero if keep byte
		331	pcmpeqb mm0,mm6 //zeros->1s, v versa
		332
		333	mov ecx,len //load length of line (pixels)
		334	mov esi,srcptr //load source
		335	mov ebx,dstptr //load dest
		336	cmp ecx,0 //lcr
		337	je mainloop8end
		338
		339	mainloop8:
		340	movq mm4,[esi]
		341	pand mm4,mm0
		342	movq mm6,mm0
		343	pandn mm6,[ebx]
		344	por mm4,mm6
		345	movq [ebx],mm4
		346
		347	add esi,8 //inc by 8 bytes processed
		348	add ebx,8
		349	sub ecx,8 //dec by 8 pixels processed
		350
		351	ja mainloop8
		352	mainloop8end:
		353
		354	mov ecx,diff
		355	cmp ecx,0
		356	jz end8
		357
		358	mov edx,mask
		359	sal edx,24 //make low byte the high byte
		360
		361	secondloop8:
		362	sal edx,1 //move high bit to CF
		363	jnc skip8 //if CF = 0
		364	mov al,[esi]
		365	mov [ebx],al
		366	skip8:
		367	inc esi
		368	inc ebx
		369
		370	dec ecx
		371	jnz secondloop8
		372	end8:
		373	emms
		374	}
		375	}
		376	else /* mmx not supported - use modified C routine */
		377	{
		378	register unsigned int incr1, initial_val, final_val;
		379	png_size_t pixel_bytes;
		380	png_uint_32 i;
		381	register int disp = png_pass_inc[png_ptr->pass];
		382	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		383
		384	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		385	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		386	pixel_bytes;
		387	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
		388	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		389	final_val = png_ptr->width*pixel_bytes;
		390	incr1 = (disp)*pixel_bytes;
		391	for (i = initial_val; i < final_val; i += incr1)
		392	{
		393	png_memcpy(dstptr, srcptr, pixel_bytes);
		394	srcptr += incr1;
		395	dstptr += incr1;
		396	}
		397	} /* end of else */
		398
		399	break;
		400	} // end 8 bpp
		401
		402	case 16:
		403	{
		404	png_bytep srcptr;
		405	png_bytep dstptr;
		406	png_uint_32 len;
		407	int unmask, diff;
		408	__int64 mask1=0x0101020204040808,
		409	mask0=0x1010202040408080;
		410
		411	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
		412	/* && mmx_supported */ )
		413	{
		414	srcptr = png_ptr->row_buf + 1;
		415	dstptr = row;
		416
		417	unmask = ~mask;
		418	len = (png_ptr->width)&~7;
		419	diff = (png_ptr->width)&7;
		420	_asm
		421	{
		422	movd mm7, unmask //load bit pattern
		423	psubb mm6,mm6 //zero mm6
		424	punpcklbw mm7,mm7
		425	punpcklwd mm7,mm7
		426	punpckldq mm7,mm7 //fill register with 8 masks
		427
		428	movq mm0,mask0
		429	movq mm1,mask1
		430
		431	pand mm0,mm7
		432	pand mm1,mm7
		433
		434	pcmpeqb mm0,mm6
		435	pcmpeqb mm1,mm6
		436
		437	mov ecx,len //load length of line
		438	mov esi,srcptr //load source
		439	mov ebx,dstptr //load dest
		440	cmp ecx,0 //lcr
		441	jz mainloop16end
		442
		443	mainloop16:
		444	movq mm4,[esi]
		445	pand mm4,mm0
		446	movq mm6,mm0
		447	movq mm7,[ebx]
		448	pandn mm6,mm7
		449	por mm4,mm6
		450	movq [ebx],mm4
		451
		452	movq mm5,[esi+8]
		453	pand mm5,mm1
		454	movq mm7,mm1
		455	movq mm6,[ebx+8]
		456	pandn mm7,mm6
		457	por mm5,mm7
		458	movq [ebx+8],mm5
		459
		460	add esi,16 //inc by 16 bytes processed
		461	add ebx,16
		462	sub ecx,8 //dec by 8 pixels processed
		463
		464	ja mainloop16
		465
		466	mainloop16end:
		467	mov ecx,diff
		468	cmp ecx,0
		469	jz end16
		470
		471	mov edx,mask
		472	sal edx,24 //make low byte the high byte
		473	secondloop16:
		474	sal edx,1 //move high bit to CF
		475	jnc skip16 //if CF = 0
		476	mov ax,[esi]
		477	mov [ebx],ax
		478	skip16:
		479	add esi,2
		480	add ebx,2
		481
		482	dec ecx
		483	jnz secondloop16
		484	end16:
		485	emms
		486	}
		487	}
		488	else /* mmx not supported - use modified C routine */
		489	{
		490	register unsigned int incr1, initial_val, final_val;
		491	png_size_t pixel_bytes;
		492	png_uint_32 i;
		493	register int disp = png_pass_inc[png_ptr->pass];
		494	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		495
		496	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		497	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		498	pixel_bytes;
		499	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
		500	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		501	final_val = png_ptr->width*pixel_bytes;
		502	incr1 = (disp)*pixel_bytes;
		503	for (i = initial_val; i < final_val; i += incr1)
		504	{
		505	png_memcpy(dstptr, srcptr, pixel_bytes);
		506	srcptr += incr1;
		507	dstptr += incr1;
		508	}
		509	} /* end of else */
		510
		511	break;
		512	} // end 16 bpp
		513
		514	case 24:
		515	{
		516	png_bytep srcptr;
		517	png_bytep dstptr;
		518	png_uint_32 len;
		519	int unmask, diff;
		520
		521	__int64 mask2=0x0101010202020404, //24bpp
		522	mask1=0x0408080810101020,
		523	mask0=0x2020404040808080;
		524
		525	srcptr = png_ptr->row_buf + 1;
		526	dstptr = row;
		527
		528	unmask = ~mask;
		529	len = (png_ptr->width)&~7;
		530	diff = (png_ptr->width)&7;
		531
		532	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
		533	/* && mmx_supported */ )
		534	{
		535	_asm
		536	{
		537	movd mm7, unmask //load bit pattern
		538	psubb mm6,mm6 //zero mm6
		539	punpcklbw mm7,mm7
		540	punpcklwd mm7,mm7
		541	punpckldq mm7,mm7 //fill register with 8 masks
		542
		543	movq mm0,mask0
		544	movq mm1,mask1
		545	movq mm2,mask2
		546
		547	pand mm0,mm7
		548	pand mm1,mm7
		549	pand mm2,mm7
		550
		551	pcmpeqb mm0,mm6
		552	pcmpeqb mm1,mm6
		553	pcmpeqb mm2,mm6
		554
		555	mov ecx,len //load length of line
		556	mov esi,srcptr //load source
		557	mov ebx,dstptr //load dest
		558	cmp ecx,0
		559	jz mainloop24end
		560
		561	mainloop24:
		562	movq mm4,[esi]
		563	pand mm4,mm0
		564	movq mm6,mm0
		565	movq mm7,[ebx]
		566	pandn mm6,mm7
		567	por mm4,mm6
		568	movq [ebx],mm4
		569
		570
		571	movq mm5,[esi+8]
		572	pand mm5,mm1
		573	movq mm7,mm1
		574	movq mm6,[ebx+8]
		575	pandn mm7,mm6
		576	por mm5,mm7
		577	movq [ebx+8],mm5
		578
		579	movq mm6,[esi+16]
		580	pand mm6,mm2
		581	movq mm4,mm2
		582	movq mm7,[ebx+16]
		583	pandn mm4,mm7
		584	por mm6,mm4
		585	movq [ebx+16],mm6
		586
		587	add esi,24 //inc by 24 bytes processed
		588	add ebx,24
		589	sub ecx,8 //dec by 8 pixels processed
		590
		591	ja mainloop24
		592
		593	mainloop24end:
		594	mov ecx,diff
		595	cmp ecx,0
		596	jz end24
		597
		598	mov edx,mask
		599	sal edx,24 //make low byte the high byte
		600	secondloop24:
		601	sal edx,1 //move high bit to CF
		602	jnc skip24 //if CF = 0
		603	mov ax,[esi]
		604	mov [ebx],ax
		605	xor eax,eax
		606	mov al,[esi+2]
		607	mov [ebx+2],al
		608	skip24:
		609	add esi,3
		610	add ebx,3
		611
		612	dec ecx
		613	jnz secondloop24
		614
		615	end24:
		616	emms
		617	}
		618	}
		619	else /* mmx not supported - use modified C routine */
		620	{
		621	register unsigned int incr1, initial_val, final_val;
		622	png_size_t pixel_bytes;
		623	png_uint_32 i;
		624	register int disp = png_pass_inc[png_ptr->pass];
		625	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		626
		627	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		628	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		629	pixel_bytes;
		630	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
		631	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		632	final_val = png_ptr->width*pixel_bytes;
		633	incr1 = (disp)*pixel_bytes;
		634	for (i = initial_val; i < final_val; i += incr1)
		635	{
		636	png_memcpy(dstptr, srcptr, pixel_bytes);
		637	srcptr += incr1;
		638	dstptr += incr1;
		639	}
		640	} /* end of else */
		641
		642	break;
		643	} // end 24 bpp
		644
		645	case 32:
		646	{
		647	png_bytep srcptr;
		648	png_bytep dstptr;
		649	png_uint_32 len;
		650	int unmask, diff;
		651
		652	__int64 mask3=0x0101010102020202, //32bpp
		653	mask2=0x0404040408080808,
		654	mask1=0x1010101020202020,
		655	mask0=0x4040404080808080;
		656
		657	srcptr = png_ptr->row_buf + 1;
		658	dstptr = row;
		659
		660	unmask = ~mask;
		661	len = (png_ptr->width)&~7;
		662	diff = (png_ptr->width)&7;
		663
		664	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
		665	/* && mmx_supported */ )
		666	{
		667	_asm
		668	{
		669	movd mm7, unmask //load bit pattern
		670	psubb mm6,mm6 //zero mm6
		671	punpcklbw mm7,mm7
		672	punpcklwd mm7,mm7
		673	punpckldq mm7,mm7 //fill register with 8 masks
		674
		675	movq mm0,mask0
		676	movq mm1,mask1
		677	movq mm2,mask2
		678	movq mm3,mask3
		679
		680	pand mm0,mm7
		681	pand mm1,mm7
		682	pand mm2,mm7
		683	pand mm3,mm7
		684
		685	pcmpeqb mm0,mm6
		686	pcmpeqb mm1,mm6
		687	pcmpeqb mm2,mm6
		688	pcmpeqb mm3,mm6
		689
		690	mov ecx,len //load length of line
		691	mov esi,srcptr //load source
		692	mov ebx,dstptr //load dest
		693
		694	cmp ecx,0 //lcr
		695	jz mainloop32end
		696
		697	mainloop32:
		698	movq mm4,[esi]
		699	pand mm4,mm0
		700	movq mm6,mm0
		701	movq mm7,[ebx]
		702	pandn mm6,mm7
		703	por mm4,mm6
		704	movq [ebx],mm4
		705
		706	movq mm5,[esi+8]
		707	pand mm5,mm1
		708	movq mm7,mm1
		709	movq mm6,[ebx+8]
		710	pandn mm7,mm6
		711	por mm5,mm7
		712	movq [ebx+8],mm5
		713
		714	movq mm6,[esi+16]
		715	pand mm6,mm2
		716	movq mm4,mm2
		717	movq mm7,[ebx+16]
		718	pandn mm4,mm7
		719	por mm6,mm4
		720	movq [ebx+16],mm6
		721
		722	movq mm7,[esi+24]
		723	pand mm7,mm3
		724	movq mm5,mm3
		725	movq mm4,[ebx+24]
		726	pandn mm5,mm4
		727	por mm7,mm5
		728	movq [ebx+24],mm7
		729
		730	add esi,32 //inc by 32 bytes processed
		731	add ebx,32
		732	sub ecx,8 //dec by 8 pixels processed
		733
		734	ja mainloop32
		735
		736	mainloop32end:
		737	mov ecx,diff
		738	cmp ecx,0
		739	jz end32
		740
		741	mov edx,mask
		742	sal edx,24 //make low byte the high byte
		743	secondloop32:
		744	sal edx,1 //move high bit to CF
		745	jnc skip32 //if CF = 0
		746	mov eax,[esi]
		747	mov [ebx],eax
		748	skip32:
		749	add esi,4
		750	add ebx,4
		751
		752	dec ecx
		753	jnz secondloop32
		754
		755	end32:
		756	emms
		757	}
		758	}
		759	else /* mmx _not supported - Use modified C routine */
		760	{
		761	register unsigned int incr1, initial_val, final_val;
		762	png_size_t pixel_bytes;
		763	png_uint_32 i;
		764	register int disp = png_pass_inc[png_ptr->pass];
		765	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		766
		767	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		768	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		769	pixel_bytes;
		770	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
		771	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		772	final_val = png_ptr->width*pixel_bytes;
		773	incr1 = (disp)*pixel_bytes;
		774	for (i = initial_val; i < final_val; i += incr1)
		775	{
		776	png_memcpy(dstptr, srcptr, pixel_bytes);
		777	srcptr += incr1;
		778	dstptr += incr1;
		779	}
		780	} /* end of else */
		781
		782	break;
		783	} // end 32 bpp
		784
		785	case 48:
		786	{
		787	png_bytep srcptr;
		788	png_bytep dstptr;
		789	png_uint_32 len;
		790	int unmask, diff;
		791
		792	__int64 mask5=0x0101010101010202,
		793	mask4=0x0202020204040404,
		794	mask3=0x0404080808080808,
		795	mask2=0x1010101010102020,
		796	mask1=0x2020202040404040,
		797	mask0=0x4040808080808080;
		798
		799	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_COMBINE_ROW)
		800	/* && mmx_supported */ )
		801	{
		802	srcptr = png_ptr->row_buf + 1;
		803	dstptr = row;
		804
		805	unmask = ~mask;
		806	len = (png_ptr->width)&~7;
		807	diff = (png_ptr->width)&7;
		808	_asm
		809	{
		810	movd mm7, unmask //load bit pattern
		811	psubb mm6,mm6 //zero mm6
		812	punpcklbw mm7,mm7
		813	punpcklwd mm7,mm7
		814	punpckldq mm7,mm7 //fill register with 8 masks
		815
		816	movq mm0,mask0
		817	movq mm1,mask1
		818	movq mm2,mask2
		819	movq mm3,mask3
		820	movq mm4,mask4
		821	movq mm5,mask5
		822
		823	pand mm0,mm7
		824	pand mm1,mm7
		825	pand mm2,mm7
		826	pand mm3,mm7
		827	pand mm4,mm7
		828	pand mm5,mm7
		829
		830	pcmpeqb mm0,mm6
		831	pcmpeqb mm1,mm6
		832	pcmpeqb mm2,mm6
		833	pcmpeqb mm3,mm6
		834	pcmpeqb mm4,mm6
		835	pcmpeqb mm5,mm6
		836
		837	mov ecx,len //load length of line
		838	mov esi,srcptr //load source
		839	mov ebx,dstptr //load dest
		840
		841	cmp ecx,0
		842	jz mainloop48end
		843
		844	mainloop48:
		845	movq mm7,[esi]
		846	pand mm7,mm0
		847	movq mm6,mm0
		848	pandn mm6,[ebx]
		849	por mm7,mm6
		850	movq [ebx],mm7
		851
		852	movq mm6,[esi+8]
		853	pand mm6,mm1
		854	movq mm7,mm1
		855	pandn mm7,[ebx+8]
		856	por mm6,mm7
		857	movq [ebx+8],mm6
		858
		859	movq mm6,[esi+16]
		860	pand mm6,mm2
		861	movq mm7,mm2
		862	pandn mm7,[ebx+16]
		863	por mm6,mm7
		864	movq [ebx+16],mm6
		865
		866	movq mm7,[esi+24]
		867	pand mm7,mm3
		868	movq mm6,mm3
		869	pandn mm6,[ebx+24]
		870	por mm7,mm6
		871	movq [ebx+24],mm7
		872
		873	movq mm6,[esi+32]
		874	pand mm6,mm4
		875	movq mm7,mm4
		876	pandn mm7,[ebx+32]
		877	por mm6,mm7
		878	movq [ebx+32],mm6
		879
		880	movq mm7,[esi+40]
		881	pand mm7,mm5
		882	movq mm6,mm5
		883	pandn mm6,[ebx+40]
		884	por mm7,mm6
		885	movq [ebx+40],mm7
		886
		887	add esi,48 //inc by 32 bytes processed
		888	add ebx,48
		889	sub ecx,8 //dec by 8 pixels processed
		890
		891	ja mainloop48
		892	mainloop48end:
		893
		894	mov ecx,diff
		895	cmp ecx,0
		896	jz end48
		897
		898	mov edx,mask
		899	sal edx,24 //make low byte the high byte
		900
		901	secondloop48:
		902	sal edx,1 //move high bit to CF
		903	jnc skip48 //if CF = 0
		904	mov eax,[esi]
		905	mov [ebx],eax
		906	skip48:
		907	add esi,4
		908	add ebx,4
		909
		910	dec ecx
		911	jnz secondloop48
		912
		913	end48:
		914	emms
		915	}
		916	}
		917	else /* mmx _not supported - Use modified C routine */
		918	{
		919	register unsigned int incr1, initial_val, final_val;
		920	png_size_t pixel_bytes;
		921	png_uint_32 i;
		922	register int disp = png_pass_inc[png_ptr->pass];
		923	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		924
		925	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		926	srcptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		927	pixel_bytes;
		928	dstptr = row + offset_table[png_ptr->pass]*pixel_bytes;
		929	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		930	final_val = png_ptr->width*pixel_bytes;
		931	incr1 = (disp)*pixel_bytes;
		932	for (i = initial_val; i < final_val; i += incr1)
		933	{
		934	png_memcpy(dstptr, srcptr, pixel_bytes);
		935	srcptr += incr1;
		936	dstptr += incr1;
		937	}
		938	} /* end of else */
		939
		940	break;
		941	} // end 48 bpp
		942
		943	default:
		944	{
		945	png_bytep sptr;
		946	png_bytep dp;
		947	png_size_t pixel_bytes;
		948	int offset_table[7] = {0, 4, 0, 2, 0, 1, 0};
		949	unsigned int i;
		950	register int disp = png_pass_inc[png_ptr->pass]; // get the offset
		951	register unsigned int incr1, initial_val, final_val;
		952
		953	pixel_bytes = (png_ptr->row_info.pixel_depth >> 3);
		954	sptr = png_ptr->row_buf + 1 + offset_table[png_ptr->pass]*
		955	pixel_bytes;
		956	dp = row + offset_table[png_ptr->pass]*pixel_bytes;
		957	initial_val = offset_table[png_ptr->pass]*pixel_bytes;
		958	final_val = png_ptr->width*pixel_bytes;
		959	incr1 = (disp)*pixel_bytes;
		960	for (i = initial_val; i < final_val; i += incr1)
		961	{
		962	png_memcpy(dp, sptr, pixel_bytes);
		963	sptr += incr1;
		964	dp += incr1;
		965	}
		966	break;
		967	}
		968	} /* end switch (png_ptr->row_info.pixel_depth) */
		969	} /* end if (non-trivial mask) */
		970
		971	} /* end png_combine_row() */
		972
		973
		974	#if defined(PNG_READ_INTERLACING_SUPPORTED)
		975
		976	void /* PRIVATE */
		977	png_do_read_interlace(png_structp png_ptr)
		978	{
		979	png_row_infop row_info = &(png_ptr->row_info);
		980	png_bytep row = png_ptr->row_buf + 1;
		981	int pass = png_ptr->pass;
		982	png_uint_32 transformations = png_ptr->transformations;
		983	#ifdef PNG_USE_LOCAL_ARRAYS
		984	const int png_pass_inc[7] = {8, 8, 4, 4, 2, 2, 1};
		985	#endif
		986
		987	png_debug(1,"in png_do_read_interlace\n");
		988
		989	if (mmx_supported == 2) {
		990	/* this should have happened in png_init_mmx_flags() already */
		991	png_warning(png_ptr, "asm_flags may not have been initialized");
		992	png_mmx_support();
		993	}
		994
		995	if (row != NULL && row_info != NULL)
		996	{
		997	png_uint_32 final_width;
		998
		999	final_width = row_info->width * png_pass_inc[pass];
		1000
		1001	switch (row_info->pixel_depth)
		1002	{
		1003	case 1:
		1004	{
		1005	png_bytep sp, dp;
		1006	int sshift, dshift;
		1007	int s_start, s_end, s_inc;
		1008	png_byte v;
		1009	png_uint_32 i;
		1010	int j;
		1011
		1012	sp = row + (png_size_t)((row_info->width - 1) >> 3);
		1013	dp = row + (png_size_t)((final_width - 1) >> 3);
		1014	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		1015	if (transformations & PNG_PACKSWAP)
		1016	{
		1017	sshift = (int)((row_info->width + 7) & 7);
		1018	dshift = (int)((final_width + 7) & 7);
		1019	s_start = 7;
		1020	s_end = 0;
		1021	s_inc = -1;
		1022	}
		1023	else
		1024	#endif
		1025	{
		1026	sshift = 7 - (int)((row_info->width + 7) & 7);
		1027	dshift = 7 - (int)((final_width + 7) & 7);
		1028	s_start = 0;
		1029	s_end = 7;
		1030	s_inc = 1;
		1031	}
		1032
		1033	for (i = row_info->width; i; i--)
		1034	{
		1035	v = (png_byte)((*sp >> sshift) & 0x1);
		1036	for (j = 0; j < png_pass_inc[pass]; j++)
		1037	{
		1038	*dp &= (png_byte)((0x7f7f >> (7 - dshift)) & 0xff);
		1039	*dp \|= (png_byte)(v << dshift);
		1040	if (dshift == s_end)
		1041	{
		1042	dshift = s_start;
		1043	dp--;
		1044	}
		1045	else
		1046	dshift += s_inc;
		1047	}
		1048	if (sshift == s_end)
		1049	{
		1050	sshift = s_start;
		1051	sp--;
		1052	}
		1053	else
		1054	sshift += s_inc;
		1055	}
		1056	break;
		1057	}
		1058
		1059	case 2:
		1060	{
		1061	png_bytep sp, dp;
		1062	int sshift, dshift;
		1063	int s_start, s_end, s_inc;
		1064	png_uint_32 i;
		1065
		1066	sp = row + (png_size_t)((row_info->width - 1) >> 2);
		1067	dp = row + (png_size_t)((final_width - 1) >> 2);
		1068	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		1069	if (transformations & PNG_PACKSWAP)
		1070	{
		1071	sshift = (png_size_t)(((row_info->width + 3) & 3) << 1);
		1072	dshift = (png_size_t)(((final_width + 3) & 3) << 1);
		1073	s_start = 6;
		1074	s_end = 0;
		1075	s_inc = -2;
		1076	}
		1077	else
		1078	#endif
		1079	{
		1080	sshift = (png_size_t)((3 - ((row_info->width + 3) & 3)) << 1);
		1081	dshift = (png_size_t)((3 - ((final_width + 3) & 3)) << 1);
		1082	s_start = 0;
		1083	s_end = 6;
		1084	s_inc = 2;
		1085	}
		1086
		1087	for (i = row_info->width; i; i--)
		1088	{
		1089	png_byte v;
		1090	int j;
		1091
		1092	v = (png_byte)((*sp >> sshift) & 0x3);
		1093	for (j = 0; j < png_pass_inc[pass]; j++)
		1094	{
		1095	*dp &= (png_byte)((0x3f3f >> (6 - dshift)) & 0xff);
		1096	*dp \|= (png_byte)(v << dshift);
		1097	if (dshift == s_end)
		1098	{
		1099	dshift = s_start;
		1100	dp--;
		1101	}
		1102	else
		1103	dshift += s_inc;
		1104	}
		1105	if (sshift == s_end)
		1106	{
		1107	sshift = s_start;
		1108	sp--;
		1109	}
		1110	else
		1111	sshift += s_inc;
		1112	}
		1113	break;
		1114	}
		1115
		1116	case 4:
		1117	{
		1118	png_bytep sp, dp;
		1119	int sshift, dshift;
		1120	int s_start, s_end, s_inc;
		1121	png_uint_32 i;
		1122
		1123	sp = row + (png_size_t)((row_info->width - 1) >> 1);
		1124	dp = row + (png_size_t)((final_width - 1) >> 1);
		1125	#if defined(PNG_READ_PACKSWAP_SUPPORTED)
		1126	if (transformations & PNG_PACKSWAP)
		1127	{
		1128	sshift = (png_size_t)(((row_info->width + 1) & 1) << 2);
		1129	dshift = (png_size_t)(((final_width + 1) & 1) << 2);
		1130	s_start = 4;
		1131	s_end = 0;
		1132	s_inc = -4;
		1133	}
		1134	else
		1135	#endif
		1136	{
		1137	sshift = (png_size_t)((1 - ((row_info->width + 1) & 1)) << 2);
		1138	dshift = (png_size_t)((1 - ((final_width + 1) & 1)) << 2);
		1139	s_start = 0;
		1140	s_end = 4;
		1141	s_inc = 4;
		1142	}
		1143
		1144	for (i = row_info->width; i; i--)
		1145	{
		1146	png_byte v;
		1147	int j;
		1148
		1149	v = (png_byte)((*sp >> sshift) & 0xf);
		1150	for (j = 0; j < png_pass_inc[pass]; j++)
		1151	{
		1152	*dp &= (png_byte)((0xf0f >> (4 - dshift)) & 0xff);
		1153	*dp \|= (png_byte)(v << dshift);
		1154	if (dshift == s_end)
		1155	{
		1156	dshift = s_start;
		1157	dp--;
		1158	}
		1159	else
		1160	dshift += s_inc;
		1161	}
		1162	if (sshift == s_end)
		1163	{
		1164	sshift = s_start;
		1165	sp--;
		1166	}
		1167	else
		1168	sshift += s_inc;
		1169	}
		1170	break;
		1171	}
		1172
		1173	default: // This is the place where the routine is modified
		1174	{
		1175	__int64 const4 = 0x0000000000FFFFFF;
		1176	// __int64 const5 = 0x000000FFFFFF0000; // unused...
		1177	__int64 const6 = 0x00000000000000FF;
		1178	png_bytep sptr, dp;
		1179	png_uint_32 i;
		1180	png_size_t pixel_bytes;
		1181	int width = row_info->width;
		1182
		1183	pixel_bytes = (row_info->pixel_depth >> 3);
		1184
		1185	sptr = row + (width - 1) * pixel_bytes;
		1186	dp = row + (final_width - 1) * pixel_bytes;
		1187	// New code by Nirav Chhatrapati - Intel Corporation
		1188	// sign fix by GRR
		1189	// NOTE: there is NO MMX code for 48-bit and 64-bit images
		1190
		1191	// use MMX routine if machine supports it
		1192	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_INTERLACE)
		1193	/* && mmx_supported */ )
		1194	{
		1195	if (pixel_bytes == 3)
		1196	{
		1197	if (((pass == 0) \|\| (pass == 1)) && width)
		1198	{
		1199	_asm
		1200	{
		1201	mov esi, sptr
		1202	mov edi, dp
		1203	mov ecx, width
		1204	sub edi, 21 // (png_pass_inc[pass] - 1)*pixel_bytes
		1205	loop_pass0:
		1206	movd mm0, [esi] ; X X X X X v2 v1 v0
		1207	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
		1208	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
		1209	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
		1210	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
		1211	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
		1212	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
		1213	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
		1214	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
		1215	movq mm3, mm0 ; v2 v1 v0 v2 v1 v0 v2 v1
		1216	psllq mm0, 16 ; v0 v2 v1 v0 v2 v1 0 0
		1217	movq mm4, mm3 ; v2 v1 v0 v2 v1 v0 v2 v1
		1218	punpckhdq mm3, mm0 ; v0 v2 v1 v0 v2 v1 v0 v2
		1219	movq [edi+16] , mm4
		1220	psrlq mm0, 32 ; 0 0 0 0 v0 v2 v1 v0
		1221	movq [edi+8] , mm3
		1222	punpckldq mm0, mm4 ; v1 v0 v2 v1 v0 v2 v1 v0
		1223	sub esi, 3
		1224	movq [edi], mm0
		1225	sub edi, 24
		1226	//sub esi, 3
		1227	dec ecx
		1228	jnz loop_pass0
		1229	EMMS
		1230	}
		1231	}
		1232	else if (((pass == 2) \|\| (pass == 3)) && width)
		1233	{
		1234	_asm
		1235	{
		1236	mov esi, sptr
		1237	mov edi, dp
		1238	mov ecx, width
		1239	sub edi, 9 // (png_pass_inc[pass] - 1)*pixel_bytes
		1240	loop_pass2:
		1241	movd mm0, [esi] ; X X X X X v2 v1 v0
		1242	pand mm0, const4 ; 0 0 0 0 0 v2 v1 v0
		1243	movq mm1, mm0 ; 0 0 0 0 0 v2 v1 v0
		1244	psllq mm0, 16 ; 0 0 0 v2 v1 v0 0 0
		1245	movq mm2, mm0 ; 0 0 0 v2 v1 v0 0 0
		1246	psllq mm0, 24 ; v2 v1 v0 0 0 0 0 0
		1247	psrlq mm1, 8 ; 0 0 0 0 0 0 v2 v1
		1248	por mm0, mm2 ; v2 v1 v0 v2 v1 v0 0 0
		1249	por mm0, mm1 ; v2 v1 v0 v2 v1 v0 v2 v1
		1250	movq [edi+4], mm0 ; move to memory
		1251	psrlq mm0, 16 ; 0 0 v2 v1 v0 v2 v1 v0
		1252	movd [edi], mm0 ; move to memory
		1253	sub esi, 3
		1254	sub edi, 12
		1255	dec ecx
		1256	jnz loop_pass2
		1257	EMMS
		1258	}
		1259	}
		1260	else if (width) /* && ((pass == 4) \|\| (pass == 5)) */
		1261	{
		1262	int width_mmx = ((width >> 1) << 1) - 8;
		1263	if (width_mmx < 0)
		1264	width_mmx = 0;
		1265	width -= width_mmx; // 8 or 9 pix, 24 or 27 bytes
		1266	if (width_mmx)
		1267	{
		1268	_asm
		1269	{
		1270	mov esi, sptr
		1271	mov edi, dp
		1272	mov ecx, width_mmx
		1273	sub esi, 3
		1274	sub edi, 9
		1275	loop_pass4:
		1276	movq mm0, [esi] ; X X v2 v1 v0 v5 v4 v3
		1277	movq mm7, mm0 ; X X v2 v1 v0 v5 v4 v3
		1278	movq mm6, mm0 ; X X v2 v1 v0 v5 v4 v3
		1279	psllq mm0, 24 ; v1 v0 v5 v4 v3 0 0 0
		1280	pand mm7, const4 ; 0 0 0 0 0 v5 v4 v3
		1281	psrlq mm6, 24 ; 0 0 0 X X v2 v1 v0
		1282	por mm0, mm7 ; v1 v0 v5 v4 v3 v5 v4 v3
		1283	movq mm5, mm6 ; 0 0 0 X X v2 v1 v0
		1284	psllq mm6, 8 ; 0 0 X X v2 v1 v0 0
		1285	movq [edi], mm0 ; move quad to memory
		1286	psrlq mm5, 16 ; 0 0 0 0 0 X X v2
		1287	pand mm5, const6 ; 0 0 0 0 0 0 0 v2
		1288	por mm6, mm5 ; 0 0 X X v2 v1 v0 v2
		1289	movd [edi+8], mm6 ; move double to memory
		1290	sub esi, 6
		1291	sub edi, 12
		1292	sub ecx, 2
		1293	jnz loop_pass4
		1294	EMMS
		1295	}
		1296	}
		1297
		1298	sptr -= width_mmx*3;
		1299	dp -= width_mmx*6;
		1300	for (i = width; i; i--)
		1301	{
		1302	png_byte v[8];
		1303	int j;
		1304
		1305	png_memcpy(v, sptr, 3);
		1306	for (j = 0; j < png_pass_inc[pass]; j++)
		1307	{
		1308	png_memcpy(dp, v, 3);
		1309	dp -= 3;
		1310	}
		1311	sptr -= 3;
		1312	}
		1313	}
		1314	} /* end of pixel_bytes == 3 */
		1315
		1316	else if (pixel_bytes == 1)
		1317	{
		1318	if (((pass == 0) \|\| (pass == 1)) && width)
		1319	{
		1320	int width_mmx = ((width >> 2) << 2);
		1321	width -= width_mmx;
		1322	if (width_mmx)
		1323	{
		1324	_asm
		1325	{
		1326	mov esi, sptr
		1327	mov edi, dp
		1328	mov ecx, width_mmx
		1329	sub edi, 31
		1330	sub esi, 3
		1331	loop1_pass0:
		1332	movd mm0, [esi] ; X X X X v0 v1 v2 v3
		1333	movq mm1, mm0 ; X X X X v0 v1 v2 v3
		1334	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
		1335	movq mm2, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
		1336	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
		1337	movq mm3, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
		1338	punpckldq mm0, mm0 ; v3 v3 v3 v3 v3 v3 v3 v3
		1339	punpckhdq mm3, mm3 ; v2 v2 v2 v2 v2 v2 v2 v2
		1340	movq [edi], mm0 ; move to memory v3
		1341	punpckhwd mm2, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
		1342	movq [edi+8], mm3 ; move to memory v2
		1343	movq mm4, mm2 ; v0 v0 v0 v0 v1 v1 v1 v1
		1344	punpckldq mm2, mm2 ; v1 v1 v1 v1 v1 v1 v1 v1
		1345	punpckhdq mm4, mm4 ; v0 v0 v0 v0 v0 v0 v0 v0
		1346	movq [edi+16], mm2 ; move to memory v1
		1347	movq [edi+24], mm4 ; move to memory v0
		1348	sub esi, 4
		1349	sub edi, 32
		1350	sub ecx, 4
		1351	jnz loop1_pass0
		1352	EMMS
		1353	}
		1354	}
		1355
		1356	sptr -= width_mmx;
		1357	dp -= width_mmx*8;
		1358	for (i = width; i; i--)
		1359	{
		1360	int j;
		1361
		1362	/* I simplified this part in version 1.0.4e
		1363	* here and in several other instances where
		1364	* pixel_bytes == 1 -- GR-P
		1365	*
		1366	* Original code:
		1367	*
		1368	* png_byte v[8];
		1369	* png_memcpy(v, sptr, pixel_bytes);
		1370	* for (j = 0; j < png_pass_inc[pass]; j++)
		1371	* {
		1372	* png_memcpy(dp, v, pixel_bytes);
		1373	* dp -= pixel_bytes;
		1374	* }
		1375	* sptr -= pixel_bytes;
		1376	*
		1377	* Replacement code is in the next three lines:
		1378	*/
		1379
		1380	for (j = 0; j < png_pass_inc[pass]; j++)
		1381	dp-- = sptr;
		1382	sptr--;
		1383	}
		1384	}
		1385	else if (((pass == 2) \|\| (pass == 3)) && width)
		1386	{
		1387	int width_mmx = ((width >> 2) << 2);
		1388	width -= width_mmx;
		1389	if (width_mmx)
		1390	{
		1391	_asm
		1392	{
		1393	mov esi, sptr
		1394	mov edi, dp
		1395	mov ecx, width_mmx
		1396	sub edi, 15
		1397	sub esi, 3
		1398	loop1_pass2:
		1399	movd mm0, [esi] ; X X X X v0 v1 v2 v3
		1400	punpcklbw mm0, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
		1401	movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
		1402	punpcklwd mm0, mm0 ; v2 v2 v2 v2 v3 v3 v3 v3
		1403	punpckhwd mm1, mm1 ; v0 v0 v0 v0 v1 v1 v1 v1
		1404	movq [edi], mm0 ; move to memory v2 and v3
		1405	sub esi, 4
		1406	movq [edi+8], mm1 ; move to memory v1 and v0
		1407	sub edi, 16
		1408	sub ecx, 4
		1409	jnz loop1_pass2
		1410	EMMS
		1411	}
		1412	}
		1413
		1414	sptr -= width_mmx;
		1415	dp -= width_mmx*4;
		1416	for (i = width; i; i--)
		1417	{
		1418	int j;
		1419
		1420	for (j = 0; j < png_pass_inc[pass]; j++)
		1421	{
		1422	dp-- = sptr;
		1423	}
		1424	sptr --;
		1425	}
		1426	}
		1427	else if (width) /* && ((pass == 4) \|\| (pass == 5))) */
		1428	{
		1429	int width_mmx = ((width >> 3) << 3);
		1430	width -= width_mmx;
		1431	if (width_mmx)
		1432	{
		1433	_asm
		1434	{
		1435	mov esi, sptr
		1436	mov edi, dp
		1437	mov ecx, width_mmx
		1438	sub edi, 15
		1439	sub esi, 7
		1440	loop1_pass4:
		1441	movq mm0, [esi] ; v0 v1 v2 v3 v4 v5 v6 v7
		1442	movq mm1, mm0 ; v0 v1 v2 v3 v4 v5 v6 v7
		1443	punpcklbw mm0, mm0 ; v4 v4 v5 v5 v6 v6 v7 v7
		1444	//movq mm1, mm0 ; v0 v0 v1 v1 v2 v2 v3 v3
		1445	punpckhbw mm1, mm1 ;v0 v0 v1 v1 v2 v2 v3 v3
		1446	movq [edi+8], mm1 ; move to memory v0 v1 v2 and v3
		1447	sub esi, 8
		1448	movq [edi], mm0 ; move to memory v4 v5 v6 and v7
		1449	//sub esi, 4
		1450	sub edi, 16
		1451	sub ecx, 8
		1452	jnz loop1_pass4
		1453	EMMS
		1454	}
		1455	}
		1456
		1457	sptr -= width_mmx;
		1458	dp -= width_mmx*2;
		1459	for (i = width; i; i--)
		1460	{
		1461	int j;
		1462
		1463	for (j = 0; j < png_pass_inc[pass]; j++)
		1464	{
		1465	dp-- = sptr;
		1466	}
		1467	sptr --;
		1468	}
		1469	}
		1470	} /* end of pixel_bytes == 1 */
		1471
		1472	else if (pixel_bytes == 2)
		1473	{
		1474	if (((pass == 0) \|\| (pass == 1)) && width)
		1475	{
		1476	int width_mmx = ((width >> 1) << 1);
		1477	width -= width_mmx;
		1478	if (width_mmx)
		1479	{
		1480	_asm
		1481	{
		1482	mov esi, sptr
		1483	mov edi, dp
		1484	mov ecx, width_mmx
		1485	sub esi, 2
		1486	sub edi, 30
		1487	loop2_pass0:
		1488	movd mm0, [esi] ; X X X X v1 v0 v3 v2
		1489	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
		1490	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
		1491	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
		1492	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
		1493	movq [edi], mm0
		1494	movq [edi + 8], mm0
		1495	movq [edi + 16], mm1
		1496	movq [edi + 24], mm1
		1497	sub esi, 4
		1498	sub edi, 32
		1499	sub ecx, 2
		1500	jnz loop2_pass0
		1501	EMMS
		1502	}
		1503	}
		1504
		1505	sptr -= (width_mmx*2 - 2); // sign fixed
		1506	dp -= (width_mmx*16 - 2); // sign fixed
		1507	for (i = width; i; i--)
		1508	{
		1509	png_byte v[8];
		1510	int j;
		1511	sptr -= 2;
		1512	png_memcpy(v, sptr, 2);
		1513	for (j = 0; j < png_pass_inc[pass]; j++)
		1514	{
		1515	dp -= 2;
		1516	png_memcpy(dp, v, 2);
		1517	}
		1518	}
		1519	}
		1520	else if (((pass == 2) \|\| (pass == 3)) && width)
		1521	{
		1522	int width_mmx = ((width >> 1) << 1) ;
		1523	width -= width_mmx;
		1524	if (width_mmx)
		1525	{
		1526	_asm
		1527	{
		1528	mov esi, sptr
		1529	mov edi, dp
		1530	mov ecx, width_mmx
		1531	sub esi, 2
		1532	sub edi, 14
		1533	loop2_pass2:
		1534	movd mm0, [esi] ; X X X X v1 v0 v3 v2
		1535	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
		1536	movq mm1, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
		1537	punpckldq mm0, mm0 ; v3 v2 v3 v2 v3 v2 v3 v2
		1538	punpckhdq mm1, mm1 ; v1 v0 v1 v0 v1 v0 v1 v0
		1539	movq [edi], mm0
		1540	sub esi, 4
		1541	movq [edi + 8], mm1
		1542	//sub esi, 4
		1543	sub edi, 16
		1544	sub ecx, 2
		1545	jnz loop2_pass2
		1546	EMMS
		1547	}
		1548	}
		1549
		1550	sptr -= (width_mmx*2 - 2); // sign fixed
		1551	dp -= (width_mmx*8 - 2); // sign fixed
		1552	for (i = width; i; i--)
		1553	{
		1554	png_byte v[8];
		1555	int j;
		1556	sptr -= 2;
		1557	png_memcpy(v, sptr, 2);
		1558	for (j = 0; j < png_pass_inc[pass]; j++)
		1559	{
		1560	dp -= 2;
		1561	png_memcpy(dp, v, 2);
		1562	}
		1563	}
		1564	}
		1565	else if (width) // pass == 4 or 5
		1566	{
		1567	int width_mmx = ((width >> 1) << 1) ;
		1568	width -= width_mmx;
		1569	if (width_mmx)
		1570	{
		1571	_asm
		1572	{
		1573	mov esi, sptr
		1574	mov edi, dp
		1575	mov ecx, width_mmx
		1576	sub esi, 2
		1577	sub edi, 6
		1578	loop2_pass4:
		1579	movd mm0, [esi] ; X X X X v1 v0 v3 v2
		1580	punpcklwd mm0, mm0 ; v1 v0 v1 v0 v3 v2 v3 v2
		1581	sub esi, 4
		1582	movq [edi], mm0
		1583	sub edi, 8
		1584	sub ecx, 2
		1585	jnz loop2_pass4
		1586	EMMS
		1587	}
		1588	}
		1589
		1590	sptr -= (width_mmx*2 - 2); // sign fixed
		1591	dp -= (width_mmx*4 - 2); // sign fixed
		1592	for (i = width; i; i--)
		1593	{
		1594	png_byte v[8];
		1595	int j;
		1596	sptr -= 2;
		1597	png_memcpy(v, sptr, 2);
		1598	for (j = 0; j < png_pass_inc[pass]; j++)
		1599	{
		1600	dp -= 2;
		1601	png_memcpy(dp, v, 2);
		1602	}
		1603	}
		1604	}
		1605	} /* end of pixel_bytes == 2 */
		1606
		1607	else if (pixel_bytes == 4)
		1608	{
		1609	if (((pass == 0) \|\| (pass == 1)) && width)
		1610	{
		1611	int width_mmx = ((width >> 1) << 1) ;
		1612	width -= width_mmx;
		1613	if (width_mmx)
		1614	{
		1615	_asm
		1616	{
		1617	mov esi, sptr
		1618	mov edi, dp
		1619	mov ecx, width_mmx
		1620	sub esi, 4
		1621	sub edi, 60
		1622	loop4_pass0:
		1623	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
		1624	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
		1625	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
		1626	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
		1627	movq [edi], mm0
		1628	movq [edi + 8], mm0
		1629	movq [edi + 16], mm0
		1630	movq [edi + 24], mm0
		1631	movq [edi+32], mm1
		1632	movq [edi + 40], mm1
		1633	movq [edi+ 48], mm1
		1634	sub esi, 8
		1635	movq [edi + 56], mm1
		1636	sub edi, 64
		1637	sub ecx, 2
		1638	jnz loop4_pass0
		1639	EMMS
		1640	}
		1641	}
		1642
		1643	sptr -= (width_mmx*4 - 4); // sign fixed
		1644	dp -= (width_mmx*32 - 4); // sign fixed
		1645	for (i = width; i; i--)
		1646	{
		1647	png_byte v[8];
		1648	int j;
		1649	sptr -= 4;
		1650	png_memcpy(v, sptr, 4);
		1651	for (j = 0; j < png_pass_inc[pass]; j++)
		1652	{
		1653	dp -= 4;
		1654	png_memcpy(dp, v, 4);
		1655	}
		1656	}
		1657	}
		1658	else if (((pass == 2) \|\| (pass == 3)) && width)
		1659	{
		1660	int width_mmx = ((width >> 1) << 1) ;
		1661	width -= width_mmx;
		1662	if (width_mmx)
		1663	{
		1664	_asm
		1665	{
		1666	mov esi, sptr
		1667	mov edi, dp
		1668	mov ecx, width_mmx
		1669	sub esi, 4
		1670	sub edi, 28
		1671	loop4_pass2:
		1672	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
		1673	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
		1674	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
		1675	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
		1676	movq [edi], mm0
		1677	movq [edi + 8], mm0
		1678	movq [edi+16], mm1
		1679	movq [edi + 24], mm1
		1680	sub esi, 8
		1681	sub edi, 32
		1682	sub ecx, 2
		1683	jnz loop4_pass2
		1684	EMMS
		1685	}
		1686	}
		1687
		1688	sptr -= (width_mmx*4 - 4); // sign fixed
		1689	dp -= (width_mmx*16 - 4); // sign fixed
		1690	for (i = width; i; i--)
		1691	{
		1692	png_byte v[8];
		1693	int j;
		1694	sptr -= 4;
		1695	png_memcpy(v, sptr, 4);
		1696	for (j = 0; j < png_pass_inc[pass]; j++)
		1697	{
		1698	dp -= 4;
		1699	png_memcpy(dp, v, 4);
		1700	}
		1701	}
		1702	}
		1703	else if (width) // pass == 4 or 5
		1704	{
		1705	int width_mmx = ((width >> 1) << 1) ;
		1706	width -= width_mmx;
		1707	if (width_mmx)
		1708	{
		1709	_asm
		1710	{
		1711	mov esi, sptr
		1712	mov edi, dp
		1713	mov ecx, width_mmx
		1714	sub esi, 4
		1715	sub edi, 12
		1716	loop4_pass4:
		1717	movq mm0, [esi] ; v3 v2 v1 v0 v7 v6 v5 v4
		1718	movq mm1, mm0 ; v3 v2 v1 v0 v7 v6 v5 v4
		1719	punpckldq mm0, mm0 ; v7 v6 v5 v4 v7 v6 v5 v4
		1720	punpckhdq mm1, mm1 ; v3 v2 v1 v0 v3 v2 v1 v0
		1721	movq [edi], mm0
		1722	sub esi, 8
		1723	movq [edi + 8], mm1
		1724	sub edi, 16
		1725	sub ecx, 2
		1726	jnz loop4_pass4
		1727	EMMS
		1728	}
		1729	}
		1730
		1731	sptr -= (width_mmx*4 - 4); // sign fixed
		1732	dp -= (width_mmx*8 - 4); // sign fixed
		1733	for (i = width; i; i--)
		1734	{
		1735	png_byte v[8];
		1736	int j;
		1737	sptr -= 4;
		1738	png_memcpy(v, sptr, 4);
		1739	for (j = 0; j < png_pass_inc[pass]; j++)
		1740	{
		1741	dp -= 4;
		1742	png_memcpy(dp, v, 4);
		1743	}
		1744	}
		1745	}
		1746
		1747	} /* end of pixel_bytes == 4 */
		1748
		1749	else if (pixel_bytes == 6)
		1750	{
		1751	for (i = width; i; i--)
		1752	{
		1753	png_byte v[8];
		1754	int j;
		1755	png_memcpy(v, sptr, 6);
		1756	for (j = 0; j < png_pass_inc[pass]; j++)
		1757	{
		1758	png_memcpy(dp, v, 6);
		1759	dp -= 6;
		1760	}
		1761	sptr -= 6;
		1762	}
		1763	} /* end of pixel_bytes == 6 */
		1764
		1765	else
		1766	{
		1767	for (i = width; i; i--)
		1768	{
		1769	png_byte v[8];
		1770	int j;
		1771	png_memcpy(v, sptr, pixel_bytes);
		1772	for (j = 0; j < png_pass_inc[pass]; j++)
		1773	{
		1774	png_memcpy(dp, v, pixel_bytes);
		1775	dp -= pixel_bytes;
		1776	}
		1777	sptr-= pixel_bytes;
		1778	}
		1779	}
		1780	} /* end of mmx_supported */
		1781
		1782	else /* MMX not supported: use modified C code - takes advantage
		1783	* of inlining of memcpy for a constant */
		1784	{
		1785	if (pixel_bytes == 1)
		1786	{
		1787	for (i = width; i; i--)
		1788	{
		1789	int j;
		1790	for (j = 0; j < png_pass_inc[pass]; j++)
		1791	dp-- = sptr;
		1792	sptr--;
		1793	}
		1794	}
		1795	else if (pixel_bytes == 3)
		1796	{
		1797	for (i = width; i; i--)
		1798	{
		1799	png_byte v[8];
		1800	int j;
		1801	png_memcpy(v, sptr, pixel_bytes);
		1802	for (j = 0; j < png_pass_inc[pass]; j++)
		1803	{
		1804	png_memcpy(dp, v, pixel_bytes);
		1805	dp -= pixel_bytes;
		1806	}
		1807	sptr -= pixel_bytes;
		1808	}
		1809	}
		1810	else if (pixel_bytes == 2)
		1811	{
		1812	for (i = width; i; i--)
		1813	{
		1814	png_byte v[8];
		1815	int j;
		1816	png_memcpy(v, sptr, pixel_bytes);
		1817	for (j = 0; j < png_pass_inc[pass]; j++)
		1818	{
		1819	png_memcpy(dp, v, pixel_bytes);
		1820	dp -= pixel_bytes;
		1821	}
		1822	sptr -= pixel_bytes;
		1823	}
		1824	}
		1825	else if (pixel_bytes == 4)
		1826	{
		1827	for (i = width; i; i--)
		1828	{
		1829	png_byte v[8];
		1830	int j;
		1831	png_memcpy(v, sptr, pixel_bytes);
		1832	for (j = 0; j < png_pass_inc[pass]; j++)
		1833	{
		1834	png_memcpy(dp, v, pixel_bytes);
		1835	dp -= pixel_bytes;
		1836	}
		1837	sptr -= pixel_bytes;
		1838	}
		1839	}
		1840	else if (pixel_bytes == 6)
		1841	{
		1842	for (i = width; i; i--)
		1843	{
		1844	png_byte v[8];
		1845	int j;
		1846	png_memcpy(v, sptr, pixel_bytes);
		1847	for (j = 0; j < png_pass_inc[pass]; j++)
		1848	{
		1849	png_memcpy(dp, v, pixel_bytes);
		1850	dp -= pixel_bytes;
		1851	}
		1852	sptr -= pixel_bytes;
		1853	}
		1854	}
		1855	else
		1856	{
		1857	for (i = width; i; i--)
		1858	{
		1859	png_byte v[8];
		1860	int j;
		1861	png_memcpy(v, sptr, pixel_bytes);
		1862	for (j = 0; j < png_pass_inc[pass]; j++)
		1863	{
		1864	png_memcpy(dp, v, pixel_bytes);
		1865	dp -= pixel_bytes;
		1866	}
		1867	sptr -= pixel_bytes;
		1868	}
		1869	}
		1870
		1871	} /* end of MMX not supported */
		1872	break;
		1873	}
		1874	} /* end switch (row_info->pixel_depth) */
		1875
		1876	row_info->width = final_width;
		1877	row_info->rowbytes = ((final_width *
		1878	(png_uint_32)row_info->pixel_depth + 7) >> 3);
		1879	}
		1880
		1881	}
		1882
		1883	#endif /* PNG_READ_INTERLACING_SUPPORTED */
		1884
		1885
		1886	// These variables are utilized in the functions below. They are declared
		1887	// globally here to ensure alignment on 8-byte boundaries.
		1888
		1889	union uAll {
		1890	__int64 use;
		1891	double align;
		1892	} LBCarryMask = {0x0101010101010101},
		1893	HBClearMask = {0x7f7f7f7f7f7f7f7f},
		1894	ActiveMask, ActiveMask2, ActiveMaskEnd, ShiftBpp, ShiftRem;
		1895
		1896
		1897	// Optimized code for PNG Average filter decoder
		1898	void /* PRIVATE */
		1899	png_read_filter_row_mmx_avg(png_row_infop row_info, png_bytep row
		1900	, png_bytep prev_row)
		1901	{
		1902	int bpp;
		1903	png_uint_32 FullLength;
		1904	png_uint_32 MMXLength;
		1905	//png_uint_32 len;
		1906	int diff;
		1907
		1908	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
		1909	FullLength = row_info->rowbytes; // # of bytes to filter
		1910	_asm {
		1911	// Init address pointers and offset
		1912	mov edi, row // edi ==> Avg(x)
		1913	xor ebx, ebx // ebx ==> x
		1914	mov edx, edi
		1915	mov esi, prev_row // esi ==> Prior(x)
		1916	sub edx, bpp // edx ==> Raw(x-bpp)
		1917
		1918	xor eax, eax
		1919	// Compute the Raw value for the first bpp bytes
		1920	// Raw(x) = Avg(x) + (Prior(x)/2)
		1921	davgrlp:
		1922	mov al, [esi + ebx] // Load al with Prior(x)
		1923	inc ebx
		1924	shr al, 1 // divide by 2
		1925	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
		1926	cmp ebx, bpp
		1927	mov [edi+ebx-1], al // Write back Raw(x);
		1928	// mov does not affect flags; -1 to offset inc ebx
		1929	jb davgrlp
		1930	// get # of bytes to alignment
		1931	mov diff, edi // take start of row
		1932	add diff, ebx // add bpp
		1933	add diff, 0xf // add 7 + 8 to incr past alignment boundary
		1934	and diff, 0xfffffff8 // mask to alignment boundary
		1935	sub diff, edi // subtract from start ==> value ebx at alignment
		1936	jz davggo
		1937	// fix alignment
		1938	// Compute the Raw value for the bytes upto the alignment boundary
		1939	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
		1940	xor ecx, ecx
		1941	davglp1:
		1942	xor eax, eax
		1943	mov cl, [esi + ebx] // load cl with Prior(x)
		1944	mov al, [edx + ebx] // load al with Raw(x-bpp)
		1945	add ax, cx
		1946	inc ebx
		1947	shr ax, 1 // divide by 2
		1948	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
		1949	cmp ebx, diff // Check if at alignment boundary
		1950	mov [edi+ebx-1], al // Write back Raw(x);
		1951	// mov does not affect flags; -1 to offset inc ebx
		1952	jb davglp1 // Repeat until at alignment boundary
		1953	davggo:
		1954	mov eax, FullLength
		1955	mov ecx, eax
		1956	sub eax, ebx // subtract alignment fix
		1957	and eax, 0x00000007 // calc bytes over mult of 8
		1958	sub ecx, eax // drop over bytes from original length
		1959	mov MMXLength, ecx
		1960	} // end _asm block
		1961	// Now do the math for the rest of the row
		1962	switch ( bpp )
		1963	{
		1964	case 3:
		1965	{
		1966	ActiveMask.use = 0x0000000000ffffff;
		1967	ShiftBpp.use = 24; // == 3 * 8
		1968	ShiftRem.use = 40; // == 64 - 24
		1969	_asm {
		1970	// Re-init address pointers and offset
		1971	movq mm7, ActiveMask
		1972	mov ebx, diff // ebx ==> x = offset to alignment boundary
		1973	movq mm5, LBCarryMask
		1974	mov edi, row // edi ==> Avg(x)
		1975	movq mm4, HBClearMask
		1976	mov esi, prev_row // esi ==> Prior(x)
		1977	// PRIME the pump (load the first Raw(x-bpp) data set
		1978	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
		1979	// (we correct position in loop below)
		1980	davg3lp:
		1981	movq mm0, [edi + ebx] // Load mm0 with Avg(x)
		1982	// Add (Prev_row/2) to Average
		1983	movq mm3, mm5
		1984	psrlq mm2, ShiftRem // Correct position Raw(x-bpp) data
		1985	movq mm1, [esi + ebx] // Load mm1 with Prior(x)
		1986	movq mm6, mm7
		1987	pand mm3, mm1 // get lsb for each prev_row byte
		1988	psrlq mm1, 1 // divide prev_row bytes by 2
		1989	pand mm1, mm4 // clear invalid bit 7 of each byte
		1990	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
		1991	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
		1992	movq mm1, mm3 // now use mm1 for getting LBCarrys
		1993	pand mm1, mm2 // get LBCarrys for each byte where both
		1994	// lsb's were == 1 (Only valid for active group)
		1995	psrlq mm2, 1 // divide raw bytes by 2
		1996	pand mm2, mm4 // clear invalid bit 7 of each byte
		1997	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		1998	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
		1999	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
		2000	// byte
		2001	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
		2002	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 3-5
		2003	movq mm2, mm0 // mov updated Raws to mm2
		2004	psllq mm2, ShiftBpp // shift data to position correctly
		2005	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2006	pand mm1, mm2 // get LBCarrys for each byte where both
		2007	// lsb's were == 1 (Only valid for active group)
		2008	psrlq mm2, 1 // divide raw bytes by 2
		2009	pand mm2, mm4 // clear invalid bit 7 of each byte
		2010	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2011	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2012	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
		2013	// byte
		2014
		2015	// Add 3rd active group (Raw(x-bpp)/2) to Average with LBCarry
		2016	psllq mm6, ShiftBpp // shift the mm6 mask to cover the last two
		2017	// bytes
		2018	movq mm2, mm0 // mov updated Raws to mm2
		2019	psllq mm2, ShiftBpp // shift data to position correctly
		2020	// Data only needs to be shifted once here to
		2021	// get the correct x-bpp offset.
		2022	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2023	pand mm1, mm2 // get LBCarrys for each byte where both
		2024	// lsb's were == 1 (Only valid for active group)
		2025	psrlq mm2, 1 // divide raw bytes by 2
		2026	pand mm2, mm4 // clear invalid bit 7 of each byte
		2027	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2028	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2029	add ebx, 8
		2030	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
		2031	// byte
		2032
		2033	// Now ready to write back to memory
		2034	movq [edi + ebx - 8], mm0
		2035	// Move updated Raw(x) to use as Raw(x-bpp) for next loop
		2036	cmp ebx, MMXLength
		2037	movq mm2, mm0 // mov updated Raw(x) to mm2
		2038	jb davg3lp
		2039	} // end _asm block
		2040	}
		2041	break;
		2042
		2043	case 6:
		2044	case 4:
		2045	case 7:
		2046	case 5:
		2047	{
		2048	ActiveMask.use = 0xffffffffffffffff; // use shift below to clear
		2049	// appropriate inactive bytes
		2050	ShiftBpp.use = bpp << 3;
		2051	ShiftRem.use = 64 - ShiftBpp.use;
		2052	_asm {
		2053	movq mm4, HBClearMask
		2054	// Re-init address pointers and offset
		2055	mov ebx, diff // ebx ==> x = offset to alignment boundary
		2056	// Load ActiveMask and clear all bytes except for 1st active group
		2057	movq mm7, ActiveMask
		2058	mov edi, row // edi ==> Avg(x)
		2059	psrlq mm7, ShiftRem
		2060	mov esi, prev_row // esi ==> Prior(x)
		2061	movq mm6, mm7
		2062	movq mm5, LBCarryMask
		2063	psllq mm6, ShiftBpp // Create mask for 2nd active group
		2064	// PRIME the pump (load the first Raw(x-bpp) data set
		2065	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
		2066	// (we correct position in loop below)
		2067	davg4lp:
		2068	movq mm0, [edi + ebx]
		2069	psrlq mm2, ShiftRem // shift data to position correctly
		2070	movq mm1, [esi + ebx]
		2071	// Add (Prev_row/2) to Average
		2072	movq mm3, mm5
		2073	pand mm3, mm1 // get lsb for each prev_row byte
		2074	psrlq mm1, 1 // divide prev_row bytes by 2
		2075	pand mm1, mm4 // clear invalid bit 7 of each byte
		2076	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
		2077	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
		2078	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2079	pand mm1, mm2 // get LBCarrys for each byte where both
		2080	// lsb's were == 1 (Only valid for active group)
		2081	psrlq mm2, 1 // divide raw bytes by 2
		2082	pand mm2, mm4 // clear invalid bit 7 of each byte
		2083	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2084	pand mm2, mm7 // Leave only Active Group 1 bytes to add to Avg
		2085	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
		2086	// byte
		2087	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
		2088	movq mm2, mm0 // mov updated Raws to mm2
		2089	psllq mm2, ShiftBpp // shift data to position correctly
		2090	add ebx, 8
		2091	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2092	pand mm1, mm2 // get LBCarrys for each byte where both
		2093	// lsb's were == 1 (Only valid for active group)
		2094	psrlq mm2, 1 // divide raw bytes by 2
		2095	pand mm2, mm4 // clear invalid bit 7 of each byte
		2096	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2097	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2098	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active
		2099	// byte
		2100	cmp ebx, MMXLength
		2101	// Now ready to write back to memory
		2102	movq [edi + ebx - 8], mm0
		2103	// Prep Raw(x-bpp) for next loop
		2104	movq mm2, mm0 // mov updated Raws to mm2
		2105	jb davg4lp
		2106	} // end _asm block
		2107	}
		2108	break;
		2109	case 2:
		2110	{
		2111	ActiveMask.use = 0x000000000000ffff;
		2112	ShiftBpp.use = 16; // == 2 * 8 [BUGFIX]
		2113	ShiftRem.use = 48; // == 64 - 16 [BUGFIX]
		2114	_asm {
		2115	// Load ActiveMask
		2116	movq mm7, ActiveMask
		2117	// Re-init address pointers and offset
		2118	mov ebx, diff // ebx ==> x = offset to alignment boundary
		2119	movq mm5, LBCarryMask
		2120	mov edi, row // edi ==> Avg(x)
		2121	movq mm4, HBClearMask
		2122	mov esi, prev_row // esi ==> Prior(x)
		2123	// PRIME the pump (load the first Raw(x-bpp) data set
		2124	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
		2125	// (we correct position in loop below)
		2126	davg2lp:
		2127	movq mm0, [edi + ebx]
		2128	psrlq mm2, ShiftRem // shift data to position correctly [BUGFIX]
		2129	movq mm1, [esi + ebx]
		2130	// Add (Prev_row/2) to Average
		2131	movq mm3, mm5
		2132	pand mm3, mm1 // get lsb for each prev_row byte
		2133	psrlq mm1, 1 // divide prev_row bytes by 2
		2134	pand mm1, mm4 // clear invalid bit 7 of each byte
		2135	movq mm6, mm7
		2136	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
		2137	// Add 1st active group (Raw(x-bpp)/2) to Average with LBCarry
		2138	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2139	pand mm1, mm2 // get LBCarrys for each byte where both
		2140	// lsb's were == 1 (Only valid for active group)
		2141	psrlq mm2, 1 // divide raw bytes by 2
		2142	pand mm2, mm4 // clear invalid bit 7 of each byte
		2143	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2144	pand mm2, mm6 // Leave only Active Group 1 bytes to add to Avg
		2145	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
		2146	// Add 2nd active group (Raw(x-bpp)/2) to Average with LBCarry
		2147	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 2 & 3
		2148	movq mm2, mm0 // mov updated Raws to mm2
		2149	psllq mm2, ShiftBpp // shift data to position correctly
		2150	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2151	pand mm1, mm2 // get LBCarrys for each byte where both
		2152	// lsb's were == 1 (Only valid for active group)
		2153	psrlq mm2, 1 // divide raw bytes by 2
		2154	pand mm2, mm4 // clear invalid bit 7 of each byte
		2155	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2156	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2157	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
		2158
		2159	// Add rdd active group (Raw(x-bpp)/2) to Average with LBCarry
		2160	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 4 & 5
		2161	movq mm2, mm0 // mov updated Raws to mm2
		2162	psllq mm2, ShiftBpp // shift data to position correctly
		2163	// Data only needs to be shifted once here to
		2164	// get the correct x-bpp offset.
		2165	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2166	pand mm1, mm2 // get LBCarrys for each byte where both
		2167	// lsb's were == 1 (Only valid for active group)
		2168	psrlq mm2, 1 // divide raw bytes by 2
		2169	pand mm2, mm4 // clear invalid bit 7 of each byte
		2170	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2171	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2172	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
		2173
		2174	// Add 4th active group (Raw(x-bpp)/2) to Average with LBCarry
		2175	psllq mm6, ShiftBpp // shift the mm6 mask to cover bytes 6 & 7
		2176	movq mm2, mm0 // mov updated Raws to mm2
		2177	psllq mm2, ShiftBpp // shift data to position correctly
		2178	// Data only needs to be shifted once here to
		2179	// get the correct x-bpp offset.
		2180	add ebx, 8
		2181	movq mm1, mm3 // now use mm1 for getting LBCarrys
		2182	pand mm1, mm2 // get LBCarrys for each byte where both
		2183	// lsb's were == 1 (Only valid for active group)
		2184	psrlq mm2, 1 // divide raw bytes by 2
		2185	pand mm2, mm4 // clear invalid bit 7 of each byte
		2186	paddb mm2, mm1 // add LBCarrys to (Raw(x-bpp)/2) for each byte
		2187	pand mm2, mm6 // Leave only Active Group 2 bytes to add to Avg
		2188	paddb mm0, mm2 // add (Raw/2) + LBCarrys to Avg for each Active byte
		2189
		2190	cmp ebx, MMXLength
		2191	// Now ready to write back to memory
		2192	movq [edi + ebx - 8], mm0
		2193	// Prep Raw(x-bpp) for next loop
		2194	movq mm2, mm0 // mov updated Raws to mm2
		2195	jb davg2lp
		2196	} // end _asm block
		2197	}
		2198	break;
		2199
		2200	case 1: // bpp == 1
		2201	{
		2202	_asm {
		2203	// Re-init address pointers and offset
		2204	mov ebx, diff // ebx ==> x = offset to alignment boundary
		2205	mov edi, row // edi ==> Avg(x)
		2206	cmp ebx, FullLength // Test if offset at end of array
		2207	jnb davg1end
		2208	// Do Paeth decode for remaining bytes
		2209	mov esi, prev_row // esi ==> Prior(x)
		2210	mov edx, edi
		2211	xor ecx, ecx // zero ecx before using cl & cx in loop below
		2212	sub edx, bpp // edx ==> Raw(x-bpp)
		2213	davg1lp:
		2214	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
		2215	xor eax, eax
		2216	mov cl, [esi + ebx] // load cl with Prior(x)
		2217	mov al, [edx + ebx] // load al with Raw(x-bpp)
		2218	add ax, cx
		2219	inc ebx
		2220	shr ax, 1 // divide by 2
		2221	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
		2222	cmp ebx, FullLength // Check if at end of array
		2223	mov [edi+ebx-1], al // Write back Raw(x);
		2224	// mov does not affect flags; -1 to offset inc ebx
		2225	jb davg1lp
		2226	davg1end:
		2227	} // end _asm block
		2228	}
		2229	return;
		2230
		2231	case 8: // bpp == 8
		2232	{
		2233	_asm {
		2234	// Re-init address pointers and offset
		2235	mov ebx, diff // ebx ==> x = offset to alignment boundary
		2236	movq mm5, LBCarryMask
		2237	mov edi, row // edi ==> Avg(x)
		2238	movq mm4, HBClearMask
		2239	mov esi, prev_row // esi ==> Prior(x)
		2240	// PRIME the pump (load the first Raw(x-bpp) data set
		2241	movq mm2, [edi + ebx - 8] // Load previous aligned 8 bytes
		2242	// (NO NEED to correct position in loop below)
		2243	davg8lp:
		2244	movq mm0, [edi + ebx]
		2245	movq mm3, mm5
		2246	movq mm1, [esi + ebx]
		2247	add ebx, 8
		2248	pand mm3, mm1 // get lsb for each prev_row byte
		2249	psrlq mm1, 1 // divide prev_row bytes by 2
		2250	pand mm3, mm2 // get LBCarrys for each byte where both
		2251	// lsb's were == 1
		2252	psrlq mm2, 1 // divide raw bytes by 2
		2253	pand mm1, mm4 // clear invalid bit 7 of each byte
		2254	paddb mm0, mm3 // add LBCarrys to Avg for each byte
		2255	pand mm2, mm4 // clear invalid bit 7 of each byte
		2256	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
		2257	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
		2258	cmp ebx, MMXLength
		2259	movq [edi + ebx - 8], mm0
		2260	movq mm2, mm0 // reuse as Raw(x-bpp)
		2261	jb davg8lp
		2262	} // end _asm block
		2263	}
		2264	break;
		2265	default: // bpp greater than 8
		2266	{
		2267	_asm {
		2268	movq mm5, LBCarryMask
		2269	// Re-init address pointers and offset
		2270	mov ebx, diff // ebx ==> x = offset to alignment boundary
		2271	mov edi, row // edi ==> Avg(x)
		2272	movq mm4, HBClearMask
		2273	mov edx, edi
		2274	mov esi, prev_row // esi ==> Prior(x)
		2275	sub edx, bpp // edx ==> Raw(x-bpp)
		2276	davgAlp:
		2277	movq mm0, [edi + ebx]
		2278	movq mm3, mm5
		2279	movq mm1, [esi + ebx]
		2280	pand mm3, mm1 // get lsb for each prev_row byte
		2281	movq mm2, [edx + ebx]
		2282	psrlq mm1, 1 // divide prev_row bytes by 2
		2283	pand mm3, mm2 // get LBCarrys for each byte where both
		2284	// lsb's were == 1
		2285	psrlq mm2, 1 // divide raw bytes by 2
		2286	pand mm1, mm4 // clear invalid bit 7 of each byte
		2287	paddb mm0, mm3 // add LBCarrys to Avg for each byte
		2288	pand mm2, mm4 // clear invalid bit 7 of each byte
		2289	paddb mm0, mm1 // add (Prev_row/2) to Avg for each byte
		2290	add ebx, 8
		2291	paddb mm0, mm2 // add (Raw/2) to Avg for each byte
		2292	cmp ebx, MMXLength
		2293	movq [edi + ebx - 8], mm0
		2294	jb davgAlp
		2295	} // end _asm block
		2296	}
		2297	break;
		2298	} // end switch ( bpp )
		2299
		2300	_asm {
		2301	// MMX acceleration complete now do clean-up
		2302	// Check if any remaining bytes left to decode
		2303	mov ebx, MMXLength // ebx ==> x = offset bytes remaining after MMX
		2304	mov edi, row // edi ==> Avg(x)
		2305	cmp ebx, FullLength // Test if offset at end of array
		2306	jnb davgend
		2307	// Do Paeth decode for remaining bytes
		2308	mov esi, prev_row // esi ==> Prior(x)
		2309	mov edx, edi
		2310	xor ecx, ecx // zero ecx before using cl & cx in loop below
		2311	sub edx, bpp // edx ==> Raw(x-bpp)
		2312	davglp2:
		2313	// Raw(x) = Avg(x) + ((Raw(x-bpp) + Prior(x))/2)
		2314	xor eax, eax
		2315	mov cl, [esi + ebx] // load cl with Prior(x)
		2316	mov al, [edx + ebx] // load al with Raw(x-bpp)
		2317	add ax, cx
		2318	inc ebx
		2319	shr ax, 1 // divide by 2
		2320	add al, [edi+ebx-1] // Add Avg(x); -1 to offset inc ebx
		2321	cmp ebx, FullLength // Check if at end of array
		2322	mov [edi+ebx-1], al // Write back Raw(x);
		2323	// mov does not affect flags; -1 to offset inc ebx
		2324	jb davglp2
		2325	davgend:
		2326	emms // End MMX instructions; prep for possible FP instrs.
		2327	} // end _asm block
		2328	}
		2329
		2330	// Optimized code for PNG Paeth filter decoder
		2331	void /* PRIVATE */
		2332	png_read_filter_row_mmx_paeth(png_row_infop row_info, png_bytep row,
		2333	png_bytep prev_row)
		2334	{
		2335	png_uint_32 FullLength;
		2336	png_uint_32 MMXLength;
		2337	//png_uint_32 len;
		2338	int bpp;
		2339	int diff;
		2340	//int ptemp;
		2341	int patemp, pbtemp, pctemp;
		2342
		2343	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
		2344	FullLength = row_info->rowbytes; // # of bytes to filter
		2345	_asm
		2346	{
		2347	xor ebx, ebx // ebx ==> x offset
		2348	mov edi, row
		2349	xor edx, edx // edx ==> x-bpp offset
		2350	mov esi, prev_row
		2351	xor eax, eax
		2352
		2353	// Compute the Raw value for the first bpp bytes
		2354	// Note: the formula works out to be always
		2355	// Paeth(x) = Raw(x) + Prior(x) where x < bpp
		2356	dpthrlp:
		2357	mov al, [edi + ebx]
		2358	add al, [esi + ebx]
		2359	inc ebx
		2360	cmp ebx, bpp
		2361	mov [edi + ebx - 1], al
		2362	jb dpthrlp
		2363	// get # of bytes to alignment
		2364	mov diff, edi // take start of row
		2365	add diff, ebx // add bpp
		2366	xor ecx, ecx
		2367	add diff, 0xf // add 7 + 8 to incr past alignment boundary
		2368	and diff, 0xfffffff8 // mask to alignment boundary
		2369	sub diff, edi // subtract from start ==> value ebx at alignment
		2370	jz dpthgo
		2371	// fix alignment
		2372	dpthlp1:
		2373	xor eax, eax
		2374	// pav = p - a = (a + b - c) - a = b - c
		2375	mov al, [esi + ebx] // load Prior(x) into al
		2376	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		2377	sub eax, ecx // subtract Prior(x-bpp)
		2378	mov patemp, eax // Save pav for later use
		2379	xor eax, eax
		2380	// pbv = p - b = (a + b - c) - b = a - c
		2381	mov al, [edi + edx] // load Raw(x-bpp) into al
		2382	sub eax, ecx // subtract Prior(x-bpp)
		2383	mov ecx, eax
		2384	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2385	add eax, patemp // pcv = pav + pbv
		2386	// pc = abs(pcv)
		2387	test eax, 0x80000000
		2388	jz dpthpca
		2389	neg eax // reverse sign of neg values
		2390	dpthpca:
		2391	mov pctemp, eax // save pc for later use
		2392	// pb = abs(pbv)
		2393	test ecx, 0x80000000
		2394	jz dpthpba
		2395	neg ecx // reverse sign of neg values
		2396	dpthpba:
		2397	mov pbtemp, ecx // save pb for later use
		2398	// pa = abs(pav)
		2399	mov eax, patemp
		2400	test eax, 0x80000000
		2401	jz dpthpaa
		2402	neg eax // reverse sign of neg values
		2403	dpthpaa:
		2404	mov patemp, eax // save pa for later use
		2405	// test if pa <= pb
		2406	cmp eax, ecx
		2407	jna dpthabb
		2408	// pa > pb; now test if pb <= pc
		2409	cmp ecx, pctemp
		2410	jna dpthbbc
		2411	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		2412	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		2413	jmp dpthpaeth
		2414	dpthbbc:
		2415	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
		2416	mov cl, [esi + ebx] // load Prior(x) into cl
		2417	jmp dpthpaeth
		2418	dpthabb:
		2419	// pa <= pb; now test if pa <= pc
		2420	cmp eax, pctemp
		2421	jna dpthabc
		2422	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		2423	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		2424	jmp dpthpaeth
		2425	dpthabc:
		2426	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
		2427	mov cl, [edi + edx] // load Raw(x-bpp) into cl
		2428	dpthpaeth:
		2429	inc ebx
		2430	inc edx
		2431	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
		2432	add [edi + ebx - 1], cl
		2433	cmp ebx, diff
		2434	jb dpthlp1
		2435	dpthgo:
		2436	mov ecx, FullLength
		2437	mov eax, ecx
		2438	sub eax, ebx // subtract alignment fix
		2439	and eax, 0x00000007 // calc bytes over mult of 8
		2440	sub ecx, eax // drop over bytes from original length
		2441	mov MMXLength, ecx
		2442	} // end _asm block
		2443	// Now do the math for the rest of the row
		2444	switch ( bpp )
		2445	{
		2446	case 3:
		2447	{
		2448	ActiveMask.use = 0x0000000000ffffff;
		2449	ActiveMaskEnd.use = 0xffff000000000000;
		2450	ShiftBpp.use = 24; // == bpp(3) * 8
		2451	ShiftRem.use = 40; // == 64 - 24
		2452	_asm
		2453	{
		2454	mov ebx, diff
		2455	mov edi, row
		2456	mov esi, prev_row
		2457	pxor mm0, mm0
		2458	// PRIME the pump (load the first Raw(x-bpp) data set
		2459	movq mm1, [edi+ebx-8]
		2460	dpth3lp:
		2461	psrlq mm1, ShiftRem // shift last 3 bytes to 1st 3 bytes
		2462	movq mm2, [esi + ebx] // load b=Prior(x)
		2463	punpcklbw mm1, mm0 // Unpack High bytes of a
		2464	movq mm3, [esi+ebx-8] // Prep c=Prior(x-bpp) bytes
		2465	punpcklbw mm2, mm0 // Unpack High bytes of b
		2466	psrlq mm3, ShiftRem // shift last 3 bytes to 1st 3 bytes
		2467	// pav = p - a = (a + b - c) - a = b - c
		2468	movq mm4, mm2
		2469	punpcklbw mm3, mm0 // Unpack High bytes of c
		2470	// pbv = p - b = (a + b - c) - b = a - c
		2471	movq mm5, mm1
		2472	psubw mm4, mm3
		2473	pxor mm7, mm7
		2474	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2475	movq mm6, mm4
		2476	psubw mm5, mm3
		2477
		2478	// pa = abs(p-a) = abs(pav)
		2479	// pb = abs(p-b) = abs(pbv)
		2480	// pc = abs(p-c) = abs(pcv)
		2481	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2482	paddw mm6, mm5
		2483	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2484	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2485	psubw mm4, mm0
		2486	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2487	psubw mm4, mm0
		2488	psubw mm5, mm7
		2489	pxor mm0, mm0
		2490	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2491	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2492	psubw mm5, mm7
		2493	psubw mm6, mm0
		2494	// test pa <= pb
		2495	movq mm7, mm4
		2496	psubw mm6, mm0
		2497	pcmpgtw mm7, mm5 // pa > pb?
		2498	movq mm0, mm7
		2499	// use mm7 mask to merge pa & pb
		2500	pand mm5, mm7
		2501	// use mm0 mask copy to merge a & b
		2502	pand mm2, mm0
		2503	pandn mm7, mm4
		2504	pandn mm0, mm1
		2505	paddw mm7, mm5
		2506	paddw mm0, mm2
		2507	// test ((pa <= pb)? pa:pb) <= pc
		2508	pcmpgtw mm7, mm6 // pab > pc?
		2509	pxor mm1, mm1
		2510	pand mm3, mm7
		2511	pandn mm7, mm0
		2512	paddw mm7, mm3
		2513	pxor mm0, mm0
		2514	packuswb mm7, mm1
		2515	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
		2516	pand mm7, ActiveMask
		2517	movq mm2, mm3 // load b=Prior(x) step 1
		2518	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
		2519	punpcklbw mm3, mm0 // Unpack High bytes of c
		2520	movq [edi + ebx], mm7 // write back updated value
		2521	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
		2522	// Now do Paeth for 2nd set of bytes (3-5)
		2523	psrlq mm2, ShiftBpp // load b=Prior(x) step 2
		2524	punpcklbw mm1, mm0 // Unpack High bytes of a
		2525	pxor mm7, mm7
		2526	punpcklbw mm2, mm0 // Unpack High bytes of b
		2527	// pbv = p - b = (a + b - c) - b = a - c
		2528	movq mm5, mm1
		2529	// pav = p - a = (a + b - c) - a = b - c
		2530	movq mm4, mm2
		2531	psubw mm5, mm3
		2532	psubw mm4, mm3
		2533	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) =
		2534	// pav + pbv = pbv + pav
		2535	movq mm6, mm5
		2536	paddw mm6, mm4
		2537
		2538	// pa = abs(p-a) = abs(pav)
		2539	// pb = abs(p-b) = abs(pbv)
		2540	// pc = abs(p-c) = abs(pcv)
		2541	pcmpgtw mm0, mm5 // Create mask pbv bytes < 0
		2542	pcmpgtw mm7, mm4 // Create mask pav bytes < 0
		2543	pand mm0, mm5 // Only pbv bytes < 0 in mm0
		2544	pand mm7, mm4 // Only pav bytes < 0 in mm7
		2545	psubw mm5, mm0
		2546	psubw mm4, mm7
		2547	psubw mm5, mm0
		2548	psubw mm4, mm7
		2549	pxor mm0, mm0
		2550	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2551	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2552	psubw mm6, mm0
		2553	// test pa <= pb
		2554	movq mm7, mm4
		2555	psubw mm6, mm0
		2556	pcmpgtw mm7, mm5 // pa > pb?
		2557	movq mm0, mm7
		2558	// use mm7 mask to merge pa & pb
		2559	pand mm5, mm7
		2560	// use mm0 mask copy to merge a & b
		2561	pand mm2, mm0
		2562	pandn mm7, mm4
		2563	pandn mm0, mm1
		2564	paddw mm7, mm5
		2565	paddw mm0, mm2
		2566	// test ((pa <= pb)? pa:pb) <= pc
		2567	pcmpgtw mm7, mm6 // pab > pc?
		2568	movq mm2, [esi + ebx] // load b=Prior(x)
		2569	pand mm3, mm7
		2570	pandn mm7, mm0
		2571	pxor mm1, mm1
		2572	paddw mm7, mm3
		2573	pxor mm0, mm0
		2574	packuswb mm7, mm1
		2575	movq mm3, mm2 // load c=Prior(x-bpp) step 1
		2576	pand mm7, ActiveMask
		2577	punpckhbw mm2, mm0 // Unpack High bytes of b
		2578	psllq mm7, ShiftBpp // Shift bytes to 2nd group of 3 bytes
		2579	// pav = p - a = (a + b - c) - a = b - c
		2580	movq mm4, mm2
		2581	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
		2582	psllq mm3, ShiftBpp // load c=Prior(x-bpp) step 2
		2583	movq [edi + ebx], mm7 // write back updated value
		2584	movq mm1, mm7
		2585	punpckhbw mm3, mm0 // Unpack High bytes of c
		2586	psllq mm1, ShiftBpp // Shift bytes
		2587	// Now mm1 will be used as Raw(x-bpp)
		2588	// Now do Paeth for 3rd, and final, set of bytes (6-7)
		2589	pxor mm7, mm7
		2590	punpckhbw mm1, mm0 // Unpack High bytes of a
		2591	psubw mm4, mm3
		2592	// pbv = p - b = (a + b - c) - b = a - c
		2593	movq mm5, mm1
		2594	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2595	movq mm6, mm4
		2596	psubw mm5, mm3
		2597	pxor mm0, mm0
		2598	paddw mm6, mm5
		2599
		2600	// pa = abs(p-a) = abs(pav)
		2601	// pb = abs(p-b) = abs(pbv)
		2602	// pc = abs(p-c) = abs(pcv)
		2603	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2604	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2605	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2606	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2607	psubw mm4, mm0
		2608	psubw mm5, mm7
		2609	psubw mm4, mm0
		2610	psubw mm5, mm7
		2611	pxor mm0, mm0
		2612	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2613	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2614	psubw mm6, mm0
		2615	// test pa <= pb
		2616	movq mm7, mm4
		2617	psubw mm6, mm0
		2618	pcmpgtw mm7, mm5 // pa > pb?
		2619	movq mm0, mm7
		2620	// use mm0 mask copy to merge a & b
		2621	pand mm2, mm0
		2622	// use mm7 mask to merge pa & pb
		2623	pand mm5, mm7
		2624	pandn mm0, mm1
		2625	pandn mm7, mm4
		2626	paddw mm0, mm2
		2627	paddw mm7, mm5
		2628	// test ((pa <= pb)? pa:pb) <= pc
		2629	pcmpgtw mm7, mm6 // pab > pc?
		2630	pand mm3, mm7
		2631	pandn mm7, mm0
		2632	paddw mm7, mm3
		2633	pxor mm1, mm1
		2634	packuswb mm1, mm7
		2635	// Step ebx to next set of 8 bytes and repeat loop til done
		2636	add ebx, 8
		2637	pand mm1, ActiveMaskEnd
		2638	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
		2639
		2640	cmp ebx, MMXLength
		2641	pxor mm0, mm0 // pxor does not affect flags
		2642	movq [edi + ebx - 8], mm1 // write back updated value
		2643	// mm1 will be used as Raw(x-bpp) next loop
		2644	// mm3 ready to be used as Prior(x-bpp) next loop
		2645	jb dpth3lp
		2646	} // end _asm block
		2647	}
		2648	break;
		2649
		2650	case 6:
		2651	case 7:
		2652	case 5:
		2653	{
		2654	ActiveMask.use = 0x00000000ffffffff;
		2655	ActiveMask2.use = 0xffffffff00000000;
		2656	ShiftBpp.use = bpp << 3; // == bpp * 8
		2657	ShiftRem.use = 64 - ShiftBpp.use;
		2658	_asm
		2659	{
		2660	mov ebx, diff
		2661	mov edi, row
		2662	mov esi, prev_row
		2663	// PRIME the pump (load the first Raw(x-bpp) data set
		2664	movq mm1, [edi+ebx-8]
		2665	pxor mm0, mm0
		2666	dpth6lp:
		2667	// Must shift to position Raw(x-bpp) data
		2668	psrlq mm1, ShiftRem
		2669	// Do first set of 4 bytes
		2670	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
		2671	punpcklbw mm1, mm0 // Unpack Low bytes of a
		2672	movq mm2, [esi + ebx] // load b=Prior(x)
		2673	punpcklbw mm2, mm0 // Unpack Low bytes of b
		2674	// Must shift to position Prior(x-bpp) data
		2675	psrlq mm3, ShiftRem
		2676	// pav = p - a = (a + b - c) - a = b - c
		2677	movq mm4, mm2
		2678	punpcklbw mm3, mm0 // Unpack Low bytes of c
		2679	// pbv = p - b = (a + b - c) - b = a - c
		2680	movq mm5, mm1
		2681	psubw mm4, mm3
		2682	pxor mm7, mm7
		2683	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2684	movq mm6, mm4
		2685	psubw mm5, mm3
		2686	// pa = abs(p-a) = abs(pav)
		2687	// pb = abs(p-b) = abs(pbv)
		2688	// pc = abs(p-c) = abs(pcv)
		2689	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2690	paddw mm6, mm5
		2691	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2692	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2693	psubw mm4, mm0
		2694	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2695	psubw mm4, mm0
		2696	psubw mm5, mm7
		2697	pxor mm0, mm0
		2698	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2699	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2700	psubw mm5, mm7
		2701	psubw mm6, mm0
		2702	// test pa <= pb
		2703	movq mm7, mm4
		2704	psubw mm6, mm0
		2705	pcmpgtw mm7, mm5 // pa > pb?
		2706	movq mm0, mm7
		2707	// use mm7 mask to merge pa & pb
		2708	pand mm5, mm7
		2709	// use mm0 mask copy to merge a & b
		2710	pand mm2, mm0
		2711	pandn mm7, mm4
		2712	pandn mm0, mm1
		2713	paddw mm7, mm5
		2714	paddw mm0, mm2
		2715	// test ((pa <= pb)? pa:pb) <= pc
		2716	pcmpgtw mm7, mm6 // pab > pc?
		2717	pxor mm1, mm1
		2718	pand mm3, mm7
		2719	pandn mm7, mm0
		2720	paddw mm7, mm3
		2721	pxor mm0, mm0
		2722	packuswb mm7, mm1
		2723	movq mm3, [esi + ebx - 8] // load c=Prior(x-bpp)
		2724	pand mm7, ActiveMask
		2725	psrlq mm3, ShiftRem
		2726	movq mm2, [esi + ebx] // load b=Prior(x) step 1
		2727	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
		2728	movq mm6, mm2
		2729	movq [edi + ebx], mm7 // write back updated value
		2730	movq mm1, [edi+ebx-8]
		2731	psllq mm6, ShiftBpp
		2732	movq mm5, mm7
		2733	psrlq mm1, ShiftRem
		2734	por mm3, mm6
		2735	psllq mm5, ShiftBpp
		2736	punpckhbw mm3, mm0 // Unpack High bytes of c
		2737	por mm1, mm5
		2738	// Do second set of 4 bytes
		2739	punpckhbw mm2, mm0 // Unpack High bytes of b
		2740	punpckhbw mm1, mm0 // Unpack High bytes of a
		2741	// pav = p - a = (a + b - c) - a = b - c
		2742	movq mm4, mm2
		2743	// pbv = p - b = (a + b - c) - b = a - c
		2744	movq mm5, mm1
		2745	psubw mm4, mm3
		2746	pxor mm7, mm7
		2747	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2748	movq mm6, mm4
		2749	psubw mm5, mm3
		2750	// pa = abs(p-a) = abs(pav)
		2751	// pb = abs(p-b) = abs(pbv)
		2752	// pc = abs(p-c) = abs(pcv)
		2753	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2754	paddw mm6, mm5
		2755	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2756	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2757	psubw mm4, mm0
		2758	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2759	psubw mm4, mm0
		2760	psubw mm5, mm7
		2761	pxor mm0, mm0
		2762	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2763	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2764	psubw mm5, mm7
		2765	psubw mm6, mm0
		2766	// test pa <= pb
		2767	movq mm7, mm4
		2768	psubw mm6, mm0
		2769	pcmpgtw mm7, mm5 // pa > pb?
		2770	movq mm0, mm7
		2771	// use mm7 mask to merge pa & pb
		2772	pand mm5, mm7
		2773	// use mm0 mask copy to merge a & b
		2774	pand mm2, mm0
		2775	pandn mm7, mm4
		2776	pandn mm0, mm1
		2777	paddw mm7, mm5
		2778	paddw mm0, mm2
		2779	// test ((pa <= pb)? pa:pb) <= pc
		2780	pcmpgtw mm7, mm6 // pab > pc?
		2781	pxor mm1, mm1
		2782	pand mm3, mm7
		2783	pandn mm7, mm0
		2784	pxor mm1, mm1
		2785	paddw mm7, mm3
		2786	pxor mm0, mm0
		2787	// Step ex to next set of 8 bytes and repeat loop til done
		2788	add ebx, 8
		2789	packuswb mm1, mm7
		2790	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
		2791	cmp ebx, MMXLength
		2792	movq [edi + ebx - 8], mm1 // write back updated value
		2793	// mm1 will be used as Raw(x-bpp) next loop
		2794	jb dpth6lp
		2795	} // end _asm block
		2796	}
		2797	break;
		2798
		2799	case 4:
		2800	{
		2801	ActiveMask.use = 0x00000000ffffffff;
		2802	_asm {
		2803	mov ebx, diff
		2804	mov edi, row
		2805	mov esi, prev_row
		2806	pxor mm0, mm0
		2807	// PRIME the pump (load the first Raw(x-bpp) data set
		2808	movq mm1, [edi+ebx-8] // Only time should need to read
		2809	// a=Raw(x-bpp) bytes
		2810	dpth4lp:
		2811	// Do first set of 4 bytes
		2812	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
		2813	punpckhbw mm1, mm0 // Unpack Low bytes of a
		2814	movq mm2, [esi + ebx] // load b=Prior(x)
		2815	punpcklbw mm2, mm0 // Unpack High bytes of b
		2816	// pav = p - a = (a + b - c) - a = b - c
		2817	movq mm4, mm2
		2818	punpckhbw mm3, mm0 // Unpack High bytes of c
		2819	// pbv = p - b = (a + b - c) - b = a - c
		2820	movq mm5, mm1
		2821	psubw mm4, mm3
		2822	pxor mm7, mm7
		2823	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2824	movq mm6, mm4
		2825	psubw mm5, mm3
		2826	// pa = abs(p-a) = abs(pav)
		2827	// pb = abs(p-b) = abs(pbv)
		2828	// pc = abs(p-c) = abs(pcv)
		2829	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2830	paddw mm6, mm5
		2831	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2832	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2833	psubw mm4, mm0
		2834	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2835	psubw mm4, mm0
		2836	psubw mm5, mm7
		2837	pxor mm0, mm0
		2838	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2839	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2840	psubw mm5, mm7
		2841	psubw mm6, mm0
		2842	// test pa <= pb
		2843	movq mm7, mm4
		2844	psubw mm6, mm0
		2845	pcmpgtw mm7, mm5 // pa > pb?
		2846	movq mm0, mm7
		2847	// use mm7 mask to merge pa & pb
		2848	pand mm5, mm7
		2849	// use mm0 mask copy to merge a & b
		2850	pand mm2, mm0
		2851	pandn mm7, mm4
		2852	pandn mm0, mm1
		2853	paddw mm7, mm5
		2854	paddw mm0, mm2
		2855	// test ((pa <= pb)? pa:pb) <= pc
		2856	pcmpgtw mm7, mm6 // pab > pc?
		2857	pxor mm1, mm1
		2858	pand mm3, mm7
		2859	pandn mm7, mm0
		2860	paddw mm7, mm3
		2861	pxor mm0, mm0
		2862	packuswb mm7, mm1
		2863	movq mm3, [esi + ebx] // load c=Prior(x-bpp)
		2864	pand mm7, ActiveMask
		2865	movq mm2, mm3 // load b=Prior(x) step 1
		2866	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
		2867	punpcklbw mm3, mm0 // Unpack High bytes of c
		2868	movq [edi + ebx], mm7 // write back updated value
		2869	movq mm1, mm7 // Now mm1 will be used as Raw(x-bpp)
		2870	// Do second set of 4 bytes
		2871	punpckhbw mm2, mm0 // Unpack Low bytes of b
		2872	punpcklbw mm1, mm0 // Unpack Low bytes of a
		2873	// pav = p - a = (a + b - c) - a = b - c
		2874	movq mm4, mm2
		2875	// pbv = p - b = (a + b - c) - b = a - c
		2876	movq mm5, mm1
		2877	psubw mm4, mm3
		2878	pxor mm7, mm7
		2879	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2880	movq mm6, mm4
		2881	psubw mm5, mm3
		2882	// pa = abs(p-a) = abs(pav)
		2883	// pb = abs(p-b) = abs(pbv)
		2884	// pc = abs(p-c) = abs(pcv)
		2885	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2886	paddw mm6, mm5
		2887	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2888	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2889	psubw mm4, mm0
		2890	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2891	psubw mm4, mm0
		2892	psubw mm5, mm7
		2893	pxor mm0, mm0
		2894	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2895	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2896	psubw mm5, mm7
		2897	psubw mm6, mm0
		2898	// test pa <= pb
		2899	movq mm7, mm4
		2900	psubw mm6, mm0
		2901	pcmpgtw mm7, mm5 // pa > pb?
		2902	movq mm0, mm7
		2903	// use mm7 mask to merge pa & pb
		2904	pand mm5, mm7
		2905	// use mm0 mask copy to merge a & b
		2906	pand mm2, mm0
		2907	pandn mm7, mm4
		2908	pandn mm0, mm1
		2909	paddw mm7, mm5
		2910	paddw mm0, mm2
		2911	// test ((pa <= pb)? pa:pb) <= pc
		2912	pcmpgtw mm7, mm6 // pab > pc?
		2913	pxor mm1, mm1
		2914	pand mm3, mm7
		2915	pandn mm7, mm0
		2916	pxor mm1, mm1
		2917	paddw mm7, mm3
		2918	pxor mm0, mm0
		2919	// Step ex to next set of 8 bytes and repeat loop til done
		2920	add ebx, 8
		2921	packuswb mm1, mm7
		2922	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
		2923	cmp ebx, MMXLength
		2924	movq [edi + ebx - 8], mm1 // write back updated value
		2925	// mm1 will be used as Raw(x-bpp) next loop
		2926	jb dpth4lp
		2927	} // end _asm block
		2928	}
		2929	break;
		2930	case 8: // bpp == 8
		2931	{
		2932	ActiveMask.use = 0x00000000ffffffff;
		2933	_asm {
		2934	mov ebx, diff
		2935	mov edi, row
		2936	mov esi, prev_row
		2937	pxor mm0, mm0
		2938	// PRIME the pump (load the first Raw(x-bpp) data set
		2939	movq mm1, [edi+ebx-8] // Only time should need to read
		2940	// a=Raw(x-bpp) bytes
		2941	dpth8lp:
		2942	// Do first set of 4 bytes
		2943	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
		2944	punpcklbw mm1, mm0 // Unpack Low bytes of a
		2945	movq mm2, [esi + ebx] // load b=Prior(x)
		2946	punpcklbw mm2, mm0 // Unpack Low bytes of b
		2947	// pav = p - a = (a + b - c) - a = b - c
		2948	movq mm4, mm2
		2949	punpcklbw mm3, mm0 // Unpack Low bytes of c
		2950	// pbv = p - b = (a + b - c) - b = a - c
		2951	movq mm5, mm1
		2952	psubw mm4, mm3
		2953	pxor mm7, mm7
		2954	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		2955	movq mm6, mm4
		2956	psubw mm5, mm3
		2957	// pa = abs(p-a) = abs(pav)
		2958	// pb = abs(p-b) = abs(pbv)
		2959	// pc = abs(p-c) = abs(pcv)
		2960	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		2961	paddw mm6, mm5
		2962	pand mm0, mm4 // Only pav bytes < 0 in mm7
		2963	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		2964	psubw mm4, mm0
		2965	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		2966	psubw mm4, mm0
		2967	psubw mm5, mm7
		2968	pxor mm0, mm0
		2969	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		2970	pand mm0, mm6 // Only pav bytes < 0 in mm7
		2971	psubw mm5, mm7
		2972	psubw mm6, mm0
		2973	// test pa <= pb
		2974	movq mm7, mm4
		2975	psubw mm6, mm0
		2976	pcmpgtw mm7, mm5 // pa > pb?
		2977	movq mm0, mm7
		2978	// use mm7 mask to merge pa & pb
		2979	pand mm5, mm7
		2980	// use mm0 mask copy to merge a & b
		2981	pand mm2, mm0
		2982	pandn mm7, mm4
		2983	pandn mm0, mm1
		2984	paddw mm7, mm5
		2985	paddw mm0, mm2
		2986	// test ((pa <= pb)? pa:pb) <= pc
		2987	pcmpgtw mm7, mm6 // pab > pc?
		2988	pxor mm1, mm1
		2989	pand mm3, mm7
		2990	pandn mm7, mm0
		2991	paddw mm7, mm3
		2992	pxor mm0, mm0
		2993	packuswb mm7, mm1
		2994	movq mm3, [esi+ebx-8] // read c=Prior(x-bpp) bytes
		2995	pand mm7, ActiveMask
		2996	movq mm2, [esi + ebx] // load b=Prior(x)
		2997	paddb mm7, [edi + ebx] // add Paeth predictor with Raw(x)
		2998	punpckhbw mm3, mm0 // Unpack High bytes of c
		2999	movq [edi + ebx], mm7 // write back updated value
		3000	movq mm1, [edi+ebx-8] // read a=Raw(x-bpp) bytes
		3001
		3002	// Do second set of 4 bytes
		3003	punpckhbw mm2, mm0 // Unpack High bytes of b
		3004	punpckhbw mm1, mm0 // Unpack High bytes of a
		3005	// pav = p - a = (a + b - c) - a = b - c
		3006	movq mm4, mm2
		3007	// pbv = p - b = (a + b - c) - b = a - c
		3008	movq mm5, mm1
		3009	psubw mm4, mm3
		3010	pxor mm7, mm7
		3011	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		3012	movq mm6, mm4
		3013	psubw mm5, mm3
		3014	// pa = abs(p-a) = abs(pav)
		3015	// pb = abs(p-b) = abs(pbv)
		3016	// pc = abs(p-c) = abs(pcv)
		3017	pcmpgtw mm0, mm4 // Create mask pav bytes < 0
		3018	paddw mm6, mm5
		3019	pand mm0, mm4 // Only pav bytes < 0 in mm7
		3020	pcmpgtw mm7, mm5 // Create mask pbv bytes < 0
		3021	psubw mm4, mm0
		3022	pand mm7, mm5 // Only pbv bytes < 0 in mm0
		3023	psubw mm4, mm0
		3024	psubw mm5, mm7
		3025	pxor mm0, mm0
		3026	pcmpgtw mm0, mm6 // Create mask pcv bytes < 0
		3027	pand mm0, mm6 // Only pav bytes < 0 in mm7
		3028	psubw mm5, mm7
		3029	psubw mm6, mm0
		3030	// test pa <= pb
		3031	movq mm7, mm4
		3032	psubw mm6, mm0
		3033	pcmpgtw mm7, mm5 // pa > pb?
		3034	movq mm0, mm7
		3035	// use mm7 mask to merge pa & pb
		3036	pand mm5, mm7
		3037	// use mm0 mask copy to merge a & b
		3038	pand mm2, mm0
		3039	pandn mm7, mm4
		3040	pandn mm0, mm1
		3041	paddw mm7, mm5
		3042	paddw mm0, mm2
		3043	// test ((pa <= pb)? pa:pb) <= pc
		3044	pcmpgtw mm7, mm6 // pab > pc?
		3045	pxor mm1, mm1
		3046	pand mm3, mm7
		3047	pandn mm7, mm0
		3048	pxor mm1, mm1
		3049	paddw mm7, mm3
		3050	pxor mm0, mm0
		3051	// Step ex to next set of 8 bytes and repeat loop til done
		3052	add ebx, 8
		3053	packuswb mm1, mm7
		3054	paddb mm1, [edi + ebx - 8] // add Paeth predictor with Raw(x)
		3055	cmp ebx, MMXLength
		3056	movq [edi + ebx - 8], mm1 // write back updated value
		3057	// mm1 will be used as Raw(x-bpp) next loop
		3058	jb dpth8lp
		3059	} // end _asm block
		3060	}
		3061	break;
		3062
		3063	case 1: // bpp = 1
		3064	case 2: // bpp = 2
		3065	default: // bpp > 8
		3066	{
		3067	_asm {
		3068	mov ebx, diff
		3069	cmp ebx, FullLength
		3070	jnb dpthdend
		3071	mov edi, row
		3072	mov esi, prev_row
		3073	// Do Paeth decode for remaining bytes
		3074	mov edx, ebx
		3075	xor ecx, ecx // zero ecx before using cl & cx in loop below
		3076	sub edx, bpp // Set edx = ebx - bpp
		3077	dpthdlp:
		3078	xor eax, eax
		3079	// pav = p - a = (a + b - c) - a = b - c
		3080	mov al, [esi + ebx] // load Prior(x) into al
		3081	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3082	sub eax, ecx // subtract Prior(x-bpp)
		3083	mov patemp, eax // Save pav for later use
		3084	xor eax, eax
		3085	// pbv = p - b = (a + b - c) - b = a - c
		3086	mov al, [edi + edx] // load Raw(x-bpp) into al
		3087	sub eax, ecx // subtract Prior(x-bpp)
		3088	mov ecx, eax
		3089	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		3090	add eax, patemp // pcv = pav + pbv
		3091	// pc = abs(pcv)
		3092	test eax, 0x80000000
		3093	jz dpthdpca
		3094	neg eax // reverse sign of neg values
		3095	dpthdpca:
		3096	mov pctemp, eax // save pc for later use
		3097	// pb = abs(pbv)
		3098	test ecx, 0x80000000
		3099	jz dpthdpba
		3100	neg ecx // reverse sign of neg values
		3101	dpthdpba:
		3102	mov pbtemp, ecx // save pb for later use
		3103	// pa = abs(pav)
		3104	mov eax, patemp
		3105	test eax, 0x80000000
		3106	jz dpthdpaa
		3107	neg eax // reverse sign of neg values
		3108	dpthdpaa:
		3109	mov patemp, eax // save pa for later use
		3110	// test if pa <= pb
		3111	cmp eax, ecx
		3112	jna dpthdabb
		3113	// pa > pb; now test if pb <= pc
		3114	cmp ecx, pctemp
		3115	jna dpthdbbc
		3116	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		3117	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3118	jmp dpthdpaeth
		3119	dpthdbbc:
		3120	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
		3121	mov cl, [esi + ebx] // load Prior(x) into cl
		3122	jmp dpthdpaeth
		3123	dpthdabb:
		3124	// pa <= pb; now test if pa <= pc
		3125	cmp eax, pctemp
		3126	jna dpthdabc
		3127	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		3128	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3129	jmp dpthdpaeth
		3130	dpthdabc:
		3131	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
		3132	mov cl, [edi + edx] // load Raw(x-bpp) into cl
		3133	dpthdpaeth:
		3134	inc ebx
		3135	inc edx
		3136	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
		3137	add [edi + ebx - 1], cl
		3138	cmp ebx, FullLength
		3139	jb dpthdlp
		3140	dpthdend:
		3141	} // end _asm block
		3142	}
		3143	return; // No need to go further with this one
		3144	} // end switch ( bpp )
		3145	_asm
		3146	{
		3147	// MMX acceleration complete now do clean-up
		3148	// Check if any remaining bytes left to decode
		3149	mov ebx, MMXLength
		3150	cmp ebx, FullLength
		3151	jnb dpthend
		3152	mov edi, row
		3153	mov esi, prev_row
		3154	// Do Paeth decode for remaining bytes
		3155	mov edx, ebx
		3156	xor ecx, ecx // zero ecx before using cl & cx in loop below
		3157	sub edx, bpp // Set edx = ebx - bpp
		3158	dpthlp2:
		3159	xor eax, eax
		3160	// pav = p - a = (a + b - c) - a = b - c
		3161	mov al, [esi + ebx] // load Prior(x) into al
		3162	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3163	sub eax, ecx // subtract Prior(x-bpp)
		3164	mov patemp, eax // Save pav for later use
		3165	xor eax, eax
		3166	// pbv = p - b = (a + b - c) - b = a - c
		3167	mov al, [edi + edx] // load Raw(x-bpp) into al
		3168	sub eax, ecx // subtract Prior(x-bpp)
		3169	mov ecx, eax
		3170	// pcv = p - c = (a + b - c) -c = (a - c) + (b - c) = pav + pbv
		3171	add eax, patemp // pcv = pav + pbv
		3172	// pc = abs(pcv)
		3173	test eax, 0x80000000
		3174	jz dpthpca2
		3175	neg eax // reverse sign of neg values
		3176	dpthpca2:
		3177	mov pctemp, eax // save pc for later use
		3178	// pb = abs(pbv)
		3179	test ecx, 0x80000000
		3180	jz dpthpba2
		3181	neg ecx // reverse sign of neg values
		3182	dpthpba2:
		3183	mov pbtemp, ecx // save pb for later use
		3184	// pa = abs(pav)
		3185	mov eax, patemp
		3186	test eax, 0x80000000
		3187	jz dpthpaa2
		3188	neg eax // reverse sign of neg values
		3189	dpthpaa2:
		3190	mov patemp, eax // save pa for later use
		3191	// test if pa <= pb
		3192	cmp eax, ecx
		3193	jna dpthabb2
		3194	// pa > pb; now test if pb <= pc
		3195	cmp ecx, pctemp
		3196	jna dpthbbc2
		3197	// pb > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		3198	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3199	jmp dpthpaeth2
		3200	dpthbbc2:
		3201	// pb <= pc; Raw(x) = Paeth(x) + Prior(x)
		3202	mov cl, [esi + ebx] // load Prior(x) into cl
		3203	jmp dpthpaeth2
		3204	dpthabb2:
		3205	// pa <= pb; now test if pa <= pc
		3206	cmp eax, pctemp
		3207	jna dpthabc2
		3208	// pa > pc; Raw(x) = Paeth(x) + Prior(x-bpp)
		3209	mov cl, [esi + edx] // load Prior(x-bpp) into cl
		3210	jmp dpthpaeth2
		3211	dpthabc2:
		3212	// pa <= pc; Raw(x) = Paeth(x) + Raw(x-bpp)
		3213	mov cl, [edi + edx] // load Raw(x-bpp) into cl
		3214	dpthpaeth2:
		3215	inc ebx
		3216	inc edx
		3217	// Raw(x) = (Paeth(x) + Paeth_Predictor( a, b, c )) mod 256
		3218	add [edi + ebx - 1], cl
		3219	cmp ebx, FullLength
		3220	jb dpthlp2
		3221	dpthend:
		3222	emms // End MMX instructions; prep for possible FP instrs.
		3223	} // end _asm block
		3224	}
		3225
		3226	// Optimized code for PNG Sub filter decoder
		3227	void /* PRIVATE */
		3228	png_read_filter_row_mmx_sub(png_row_infop row_info, png_bytep row)
		3229	{
		3230	//int test;
		3231	int bpp;
		3232	png_uint_32 FullLength;
		3233	png_uint_32 MMXLength;
		3234	int diff;
		3235
		3236	bpp = (row_info->pixel_depth + 7) >> 3; // Get # bytes per pixel
		3237	FullLength = row_info->rowbytes - bpp; // # of bytes to filter
		3238	_asm {
		3239	mov edi, row
		3240	mov esi, edi // lp = row
		3241	add edi, bpp // rp = row + bpp
		3242	xor eax, eax
		3243	// get # of bytes to alignment
		3244	mov diff, edi // take start of row
		3245	add diff, 0xf // add 7 + 8 to incr past
		3246	// alignment boundary
		3247	xor ebx, ebx
		3248	and diff, 0xfffffff8 // mask to alignment boundary
		3249	sub diff, edi // subtract from start ==> value
		3250	// ebx at alignment
		3251	jz dsubgo
		3252	// fix alignment
		3253	dsublp1:
		3254	mov al, [esi+ebx]
		3255	add [edi+ebx], al
		3256	inc ebx
		3257	cmp ebx, diff
		3258	jb dsublp1
		3259	dsubgo:
		3260	mov ecx, FullLength
		3261	mov edx, ecx
		3262	sub edx, ebx // subtract alignment fix
		3263	and edx, 0x00000007 // calc bytes over mult of 8
		3264	sub ecx, edx // drop over bytes from length
		3265	mov MMXLength, ecx
		3266	} // end _asm block
		3267
		3268	// Now do the math for the rest of the row
		3269	switch ( bpp )
		3270	{
		3271	case 3:
		3272	{
		3273	ActiveMask.use = 0x0000ffffff000000;
		3274	ShiftBpp.use = 24; // == 3 * 8
		3275	ShiftRem.use = 40; // == 64 - 24
		3276	_asm {
		3277	mov edi, row
		3278	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
		3279	mov esi, edi // lp = row
		3280	add edi, bpp // rp = row + bpp
		3281	movq mm6, mm7
		3282	mov ebx, diff
		3283	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
		3284	// byte group
		3285	// PRIME the pump (load the first Raw(x-bpp) data set
		3286	movq mm1, [edi+ebx-8]
		3287	dsub3lp:
		3288	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
		3289	// no need for mask; shift clears inactive bytes
		3290	// Add 1st active group
		3291	movq mm0, [edi+ebx]
		3292	paddb mm0, mm1
		3293	// Add 2nd active group
		3294	movq mm1, mm0 // mov updated Raws to mm1
		3295	psllq mm1, ShiftBpp // shift data to position correctly
		3296	pand mm1, mm7 // mask to use only 2nd active group
		3297	paddb mm0, mm1
		3298	// Add 3rd active group
		3299	movq mm1, mm0 // mov updated Raws to mm1
		3300	psllq mm1, ShiftBpp // shift data to position correctly
		3301	pand mm1, mm6 // mask to use only 3rd active group
		3302	add ebx, 8
		3303	paddb mm0, mm1
		3304	cmp ebx, MMXLength
		3305	movq [edi+ebx-8], mm0 // Write updated Raws back to array
		3306	// Prep for doing 1st add at top of loop
		3307	movq mm1, mm0
		3308	jb dsub3lp
		3309	} // end _asm block
		3310	}
		3311	break;
		3312
		3313	case 1:
		3314	{
		3315	// Placed here just in case this is a duplicate of the
		3316	// non-MMX code for the SUB filter in png_read_filter_row below
		3317	//
		3318	// png_bytep rp;
		3319	// png_bytep lp;
		3320	// png_uint_32 i;
		3321	// bpp = (row_info->pixel_depth + 7) >> 3;
		3322	// for (i = (png_uint_32)bpp, rp = row + bpp, lp = row;
		3323	// i < row_info->rowbytes; i++, rp++, lp++)
		3324	// {
		3325	// rp = (png_byte)(((int)(rp) + (int)(*lp)) & 0xff);
		3326	// }
		3327	_asm {
		3328	mov ebx, diff
		3329	mov edi, row
		3330	cmp ebx, FullLength
		3331	jnb dsub1end
		3332	mov esi, edi // lp = row
		3333	xor eax, eax
		3334	add edi, bpp // rp = row + bpp
		3335	dsub1lp:
		3336	mov al, [esi+ebx]
		3337	add [edi+ebx], al
		3338	inc ebx
		3339	cmp ebx, FullLength
		3340	jb dsub1lp
		3341	dsub1end:
		3342	} // end _asm block
		3343	}
		3344	return;
		3345
		3346	case 6:
		3347	case 7:
		3348	case 4:
		3349	case 5:
		3350	{
		3351	ShiftBpp.use = bpp << 3;
		3352	ShiftRem.use = 64 - ShiftBpp.use;
		3353	_asm {
		3354	mov edi, row
		3355	mov ebx, diff
		3356	mov esi, edi // lp = row
		3357	add edi, bpp // rp = row + bpp
		3358	// PRIME the pump (load the first Raw(x-bpp) data set
		3359	movq mm1, [edi+ebx-8]
		3360	dsub4lp:
		3361	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
		3362	// no need for mask; shift clears inactive bytes
		3363	movq mm0, [edi+ebx]
		3364	paddb mm0, mm1
		3365	// Add 2nd active group
		3366	movq mm1, mm0 // mov updated Raws to mm1
		3367	psllq mm1, ShiftBpp // shift data to position correctly
		3368	// there is no need for any mask
		3369	// since shift clears inactive bits/bytes
		3370	add ebx, 8
		3371	paddb mm0, mm1
		3372	cmp ebx, MMXLength
		3373	movq [edi+ebx-8], mm0
		3374	movq mm1, mm0 // Prep for doing 1st add at top of loop
		3375	jb dsub4lp
		3376	} // end _asm block
		3377	}
		3378	break;
		3379
		3380	case 2:
		3381	{
		3382	ActiveMask.use = 0x00000000ffff0000;
		3383	ShiftBpp.use = 16; // == 2 * 8
		3384	ShiftRem.use = 48; // == 64 - 16
		3385	_asm {
		3386	movq mm7, ActiveMask // Load ActiveMask for 2nd active byte group
		3387	mov ebx, diff
		3388	movq mm6, mm7
		3389	mov edi, row
		3390	psllq mm6, ShiftBpp // Move mask in mm6 to cover 3rd active
		3391	// byte group
		3392	mov esi, edi // lp = row
		3393	movq mm5, mm6
		3394	add edi, bpp // rp = row + bpp
		3395	psllq mm5, ShiftBpp // Move mask in mm5 to cover 4th active
		3396	// byte group
		3397	// PRIME the pump (load the first Raw(x-bpp) data set
		3398	movq mm1, [edi+ebx-8]
		3399	dsub2lp:
		3400	// Add 1st active group
		3401	psrlq mm1, ShiftRem // Shift data for adding 1st bpp bytes
		3402	// no need for mask; shift clears inactive
		3403	// bytes
		3404	movq mm0, [edi+ebx]
		3405	paddb mm0, mm1
		3406	// Add 2nd active group
		3407	movq mm1, mm0 // mov updated Raws to mm1
		3408	psllq mm1, ShiftBpp // shift data to position correctly
		3409	pand mm1, mm7 // mask to use only 2nd active group
		3410	paddb mm0, mm1
		3411	// Add 3rd active group
		3412	movq mm1, mm0 // mov updated Raws to mm1
		3413	psllq mm1, ShiftBpp // shift data to position correctly
		3414	pand mm1, mm6 // mask to use only 3rd active group
		3415	paddb mm0, mm1
		3416	// Add 4th active group
		3417	movq mm1, mm0 // mov updated Raws to mm1
		3418	psllq mm1, ShiftBpp // shift data to position correctly
		3419	pand mm1, mm5 // mask to use only 4th active group
		3420	add ebx, 8
		3421	paddb mm0, mm1
		3422	cmp ebx, MMXLength
		3423	movq [edi+ebx-8], mm0 // Write updated Raws back to array
		3424	movq mm1, mm0 // Prep for doing 1st add at top of loop
		3425	jb dsub2lp
		3426	} // end _asm block
		3427	}
		3428	break;
		3429	case 8:
		3430	{
		3431	_asm {
		3432	mov edi, row
		3433	mov ebx, diff
		3434	mov esi, edi // lp = row
		3435	add edi, bpp // rp = row + bpp
		3436	mov ecx, MMXLength
		3437	movq mm7, [edi+ebx-8] // PRIME the pump (load the first
		3438	// Raw(x-bpp) data set
		3439	and ecx, 0x0000003f // calc bytes over mult of 64
		3440	dsub8lp:
		3441	movq mm0, [edi+ebx] // Load Sub(x) for 1st 8 bytes
		3442	paddb mm0, mm7
		3443	movq mm1, [edi+ebx+8] // Load Sub(x) for 2nd 8 bytes
		3444	movq [edi+ebx], mm0 // Write Raw(x) for 1st 8 bytes
		3445	// Now mm0 will be used as Raw(x-bpp) for
		3446	// the 2nd group of 8 bytes. This will be
		3447	// repeated for each group of 8 bytes with
		3448	// the 8th group being used as the Raw(x-bpp)
		3449	// for the 1st group of the next loop.
		3450	paddb mm1, mm0
		3451	movq mm2, [edi+ebx+16] // Load Sub(x) for 3rd 8 bytes
		3452	movq [edi+ebx+8], mm1 // Write Raw(x) for 2nd 8 bytes
		3453	paddb mm2, mm1
		3454	movq mm3, [edi+ebx+24] // Load Sub(x) for 4th 8 bytes
		3455	movq [edi+ebx+16], mm2 // Write Raw(x) for 3rd 8 bytes
		3456	paddb mm3, mm2
		3457	movq mm4, [edi+ebx+32] // Load Sub(x) for 5th 8 bytes
		3458	movq [edi+ebx+24], mm3 // Write Raw(x) for 4th 8 bytes
		3459	paddb mm4, mm3
		3460	movq mm5, [edi+ebx+40] // Load Sub(x) for 6th 8 bytes
		3461	movq [edi+ebx+32], mm4 // Write Raw(x) for 5th 8 bytes
		3462	paddb mm5, mm4
		3463	movq mm6, [edi+ebx+48] // Load Sub(x) for 7th 8 bytes
		3464	movq [edi+ebx+40], mm5 // Write Raw(x) for 6th 8 bytes
		3465	paddb mm6, mm5
		3466	movq mm7, [edi+ebx+56] // Load Sub(x) for 8th 8 bytes
		3467	movq [edi+ebx+48], mm6 // Write Raw(x) for 7th 8 bytes
		3468	add ebx, 64
		3469	paddb mm7, mm6
		3470	cmp ebx, ecx
		3471	movq [edi+ebx-8], mm7 // Write Raw(x) for 8th 8 bytes
		3472	jb dsub8lp
		3473	cmp ebx, MMXLength
		3474	jnb dsub8lt8
		3475	dsub8lpA:
		3476	movq mm0, [edi+ebx]
		3477	add ebx, 8
		3478	paddb mm0, mm7
		3479	cmp ebx, MMXLength
		3480	movq [edi+ebx-8], mm0 // use -8 to offset early add to ebx
		3481	movq mm7, mm0 // Move calculated Raw(x) data to mm1 to
		3482	// be the new Raw(x-bpp) for the next loop
		3483	jb dsub8lpA
		3484	dsub8lt8:
		3485	} // end _asm block
		3486	}
		3487	break;
		3488
		3489	default: // bpp greater than 8 bytes
		3490	{
		3491	_asm {
		3492	mov ebx, diff
		3493	mov edi, row
		3494	mov esi, edi // lp = row
		3495	add edi, bpp // rp = row + bpp
		3496	dsubAlp:
		3497	movq mm0, [edi+ebx]
		3498	movq mm1, [esi+ebx]
		3499	add ebx, 8
		3500	paddb mm0, mm1
		3501	cmp ebx, MMXLength
		3502	movq [edi+ebx-8], mm0 // mov does not affect flags; -8 to offset
		3503	// add ebx
		3504	jb dsubAlp
		3505	} // end _asm block
		3506	}
		3507	break;
		3508
		3509	} // end switch ( bpp )
		3510
		3511	_asm {
		3512	mov ebx, MMXLength
		3513	mov edi, row
		3514	cmp ebx, FullLength
		3515	jnb dsubend
		3516	mov esi, edi // lp = row
		3517	xor eax, eax
		3518	add edi, bpp // rp = row + bpp
		3519	dsublp2:
		3520	mov al, [esi+ebx]
		3521	add [edi+ebx], al
		3522	inc ebx
		3523	cmp ebx, FullLength
		3524	jb dsublp2
		3525	dsubend:
		3526	emms // End MMX instructions; prep for possible FP instrs.
		3527	} // end _asm block
		3528	}
		3529
		3530	// Optimized code for PNG Up filter decoder
		3531	void /* PRIVATE */
		3532	png_read_filter_row_mmx_up(png_row_infop row_info, png_bytep row,
		3533	png_bytep prev_row)
		3534	{
		3535	png_uint_32 len;
		3536	len = row_info->rowbytes; // # of bytes to filter
		3537	_asm {
		3538	mov edi, row
		3539	// get # of bytes to alignment
		3540	mov ecx, edi
		3541	xor ebx, ebx
		3542	add ecx, 0x7
		3543	xor eax, eax
		3544	and ecx, 0xfffffff8
		3545	mov esi, prev_row
		3546	sub ecx, edi
		3547	jz dupgo
		3548	// fix alignment
		3549	duplp1:
		3550	mov al, [edi+ebx]
		3551	add al, [esi+ebx]
		3552	inc ebx
		3553	cmp ebx, ecx
		3554	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
		3555	jb duplp1
		3556	dupgo:
		3557	mov ecx, len
		3558	mov edx, ecx
		3559	sub edx, ebx // subtract alignment fix
		3560	and edx, 0x0000003f // calc bytes over mult of 64
		3561	sub ecx, edx // drop over bytes from length
		3562	// Unrolled loop - use all MMX registers and interleave to reduce
		3563	// number of branch instructions (loops) and reduce partial stalls
		3564	duploop:
		3565	movq mm1, [esi+ebx]
		3566	movq mm0, [edi+ebx]
		3567	movq mm3, [esi+ebx+8]
		3568	paddb mm0, mm1
		3569	movq mm2, [edi+ebx+8]
		3570	movq [edi+ebx], mm0
		3571	paddb mm2, mm3
		3572	movq mm5, [esi+ebx+16]
		3573	movq [edi+ebx+8], mm2
		3574	movq mm4, [edi+ebx+16]
		3575	movq mm7, [esi+ebx+24]
		3576	paddb mm4, mm5
		3577	movq mm6, [edi+ebx+24]
		3578	movq [edi+ebx+16], mm4
		3579	paddb mm6, mm7
		3580	movq mm1, [esi+ebx+32]
		3581	movq [edi+ebx+24], mm6
		3582	movq mm0, [edi+ebx+32]
		3583	movq mm3, [esi+ebx+40]
		3584	paddb mm0, mm1
		3585	movq mm2, [edi+ebx+40]
		3586	movq [edi+ebx+32], mm0
		3587	paddb mm2, mm3
		3588	movq mm5, [esi+ebx+48]
		3589	movq [edi+ebx+40], mm2
		3590	movq mm4, [edi+ebx+48]
		3591	movq mm7, [esi+ebx+56]
		3592	paddb mm4, mm5
		3593	movq mm6, [edi+ebx+56]
		3594	movq [edi+ebx+48], mm4
		3595	add ebx, 64
		3596	paddb mm6, mm7
		3597	cmp ebx, ecx
		3598	movq [edi+ebx-8], mm6 // (+56)movq does not affect flags;
		3599	// -8 to offset add ebx
		3600	jb duploop
		3601
		3602	cmp edx, 0 // Test for bytes over mult of 64
		3603	jz dupend
		3604
		3605
		3606	// 2 lines added by lcreeve@netins.net
		3607	// (mail 11 Jul 98 in png-implement list)
		3608	cmp edx, 8 //test for less than 8 bytes
		3609	jb duplt8
		3610
		3611
		3612	add ecx, edx
		3613	and edx, 0x00000007 // calc bytes over mult of 8
		3614	sub ecx, edx // drop over bytes from length
		3615	jz duplt8
		3616	// Loop using MMX registers mm0 & mm1 to update 8 bytes simultaneously
		3617	duplpA:
		3618	movq mm1, [esi+ebx]
		3619	movq mm0, [edi+ebx]
		3620	add ebx, 8
		3621	paddb mm0, mm1
		3622	cmp ebx, ecx
		3623	movq [edi+ebx-8], mm0 // movq does not affect flags; -8 to offset add ebx
		3624	jb duplpA
		3625	cmp edx, 0 // Test for bytes over mult of 8
		3626	jz dupend
		3627	duplt8:
		3628	xor eax, eax
		3629	add ecx, edx // move over byte count into counter
		3630	// Loop using x86 registers to update remaining bytes
		3631	duplp2:
		3632	mov al, [edi + ebx]
		3633	add al, [esi + ebx]
		3634	inc ebx
		3635	cmp ebx, ecx
		3636	mov [edi + ebx-1], al // mov does not affect flags; -1 to offset inc ebx
		3637	jb duplp2
		3638	dupend:
		3639	// Conversion of filtered row completed
		3640	emms // End MMX instructions; prep for possible FP instrs.
		3641	} // end _asm block
		3642	}
		3643
		3644
		3645	// Optimized png_read_filter_row routines
		3646	void /* PRIVATE */
		3647	png_read_filter_row(png_structp png_ptr, png_row_infop row_info, png_bytep
		3648	row, png_bytep prev_row, int filter)
		3649	{
		3650	#ifdef PNG_DEBUG
		3651	char filnm[10];
		3652	#endif
		3653
		3654	if (mmx_supported == 2) {
		3655	/* this should have happened in png_init_mmx_flags() already */
		3656	png_warning(png_ptr, "asm_flags may not have been initialized");
		3657	png_mmx_support();
		3658	}
		3659
		3660	#ifdef PNG_DEBUG
		3661	png_debug(1, "in png_read_filter_row\n");
		3662	switch (filter)
		3663	{
		3664	case 0: sprintf(filnm, "none");
		3665	break;
		3666	case 1: sprintf(filnm, "sub-%s",
		3667	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB)? "MMX" : "x86");
		3668	break;
		3669	case 2: sprintf(filnm, "up-%s",
		3670	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP)? "MMX" : "x86");
		3671	break;
		3672	case 3: sprintf(filnm, "avg-%s",
		3673	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG)? "MMX" : "x86");
		3674	break;
		3675	case 4: sprintf(filnm, "Paeth-%s",
		3676	(png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH)? "MMX":"x86");
		3677	break;
		3678	default: sprintf(filnm, "unknw");
		3679	break;
		3680	}
		3681	png_debug2(0,"row=%5d, %s, ", png_ptr->row_number, filnm);
		3682	png_debug2(0, "pd=%2d, b=%d, ", (int)row_info->pixel_depth,
		3683	(int)((row_info->pixel_depth + 7) >> 3));
		3684	png_debug1(0,"len=%8d, ", row_info->rowbytes);
		3685	#endif /* PNG_DEBUG */
		3686
		3687	switch (filter)
		3688	{
		3689	case PNG_FILTER_VALUE_NONE:
		3690	break;
		3691
		3692	case PNG_FILTER_VALUE_SUB:
		3693	{
		3694	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_SUB) &&
		3695	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
		3696	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
		3697	{
		3698	png_read_filter_row_mmx_sub(row_info, row);
		3699	}
		3700	else
		3701	{
		3702	png_uint_32 i;
		3703	png_uint_32 istop = row_info->rowbytes;
		3704	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
		3705	png_bytep rp = row + bpp;
		3706	png_bytep lp = row;
		3707
		3708	for (i = bpp; i < istop; i++)
		3709	{
		3710	rp = (png_byte)(((int)(rp) + (int)(*lp++)) & 0xff);
		3711	rp++;
		3712	}
		3713	}
		3714	break;
		3715	}
		3716
		3717	case PNG_FILTER_VALUE_UP:
		3718	{
		3719	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_UP) &&
		3720	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
		3721	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
		3722	{
		3723	png_read_filter_row_mmx_up(row_info, row, prev_row);
		3724	}
		3725	else
		3726	{
		3727	png_uint_32 i;
		3728	png_uint_32 istop = row_info->rowbytes;
		3729	png_bytep rp = row;
		3730	png_bytep pp = prev_row;
		3731
		3732	for (i = 0; i < istop; ++i)
		3733	{
		3734	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
		3735	rp++;
		3736	}
		3737	}
		3738	break;
		3739	}
		3740
		3741	case PNG_FILTER_VALUE_AVG:
		3742	{
		3743	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_AVG) &&
		3744	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
		3745	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
		3746	{
		3747	png_read_filter_row_mmx_avg(row_info, row, prev_row);
		3748	}
		3749	else
		3750	{
		3751	png_uint_32 i;
		3752	png_bytep rp = row;
		3753	png_bytep pp = prev_row;
		3754	png_bytep lp = row;
		3755	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
		3756	png_uint_32 istop = row_info->rowbytes - bpp;
		3757
		3758	for (i = 0; i < bpp; i++)
		3759	{
		3760	rp = (png_byte)(((int)(rp) +
		3761	((int)(*pp++) >> 1)) & 0xff);
		3762	rp++;
		3763	}
		3764
		3765	for (i = 0; i < istop; i++)
		3766	{
		3767	rp = (png_byte)(((int)(rp) +
		3768	((int)(pp++ + lp++) >> 1)) & 0xff);
		3769	rp++;
		3770	}
		3771	}
		3772	break;
		3773	}
		3774
		3775	case PNG_FILTER_VALUE_PAETH:
		3776	{
		3777	if ((png_ptr->asm_flags & PNG_ASM_FLAG_MMX_READ_FILTER_PAETH) &&
		3778	(row_info->pixel_depth >= png_ptr->mmx_bitdepth_threshold) &&
		3779	(row_info->rowbytes >= png_ptr->mmx_rowbytes_threshold))
		3780	{
		3781	png_read_filter_row_mmx_paeth(row_info, row, prev_row);
		3782	}
		3783	else
		3784	{
		3785	png_uint_32 i;
		3786	png_bytep rp = row;
		3787	png_bytep pp = prev_row;
		3788	png_bytep lp = row;
		3789	png_bytep cp = prev_row;
		3790	png_uint_32 bpp = (row_info->pixel_depth + 7) >> 3;
		3791	png_uint_32 istop=row_info->rowbytes - bpp;
		3792
		3793	for (i = 0; i < bpp; i++)
		3794	{
		3795	rp = (png_byte)(((int)(rp) + (int)(*pp++)) & 0xff);
		3796	rp++;
		3797	}
		3798
		3799	for (i = 0; i < istop; i++) // use leftover rp,pp
		3800	{
		3801	int a, b, c, pa, pb, pc, p;
		3802
		3803	a = *lp++;
		3804	b = *pp++;
		3805	c = *cp++;
		3806
		3807	p = b - c;
		3808	pc = a - c;
		3809
		3810	#ifdef PNG_USE_ABS
		3811	pa = abs(p);
		3812	pb = abs(pc);
		3813	pc = abs(p + pc);
		3814	#else
		3815	pa = p < 0 ? -p : p;
		3816	pb = pc < 0 ? -pc : pc;
		3817	pc = (p + pc) < 0 ? -(p + pc) : p + pc;
		3818	#endif
		3819
		3820	/*
		3821	if (pa <= pb && pa <= pc)
		3822	p = a;
		3823	else if (pb <= pc)
		3824	p = b;
		3825	else
		3826	p = c;
		3827	*/
		3828
		3829	p = (pa <= pb && pa <=pc) ? a : (pb <= pc) ? b : c;
		3830
		3831	rp = (png_byte)(((int)(rp) + p) & 0xff);
		3832	rp++;
		3833	}
		3834	}
		3835	break;
		3836	}
		3837
		3838	default:
		3839	png_warning(png_ptr, "Ignoring bad row filter type");
		3840	*row=0;
		3841	break;
		3842	}
		3843	}
		3844
		3845	#endif /* PNG_ASSEMBLER_CODE_SUPPORTED && PNG_USE_PNGVCRD */

Subversion Repositories shark

(root)/shark/trunk/ports/png/pngvcrd.c @ 1038 - Rev 96