bn/asm/s390x-mont.pl

238384Sjkim#!/usr/bin/env perl
238384Sjkim
238384Sjkim# ====================================================================
238384Sjkim# Written by Andy Polyakov <appro@fy.chalmers.se> for the OpenSSL
238384Sjkim# project. The module is, however, dual licensed under OpenSSL and
238384Sjkim# CRYPTOGAMS licenses depending on where you obtain it. For further
238384Sjkim# details see http://www.openssl.org/~appro/cryptogams/.
238384Sjkim# ====================================================================
238384Sjkim
238384Sjkim# April 2007.
238384Sjkim#
238384Sjkim# Performance improvement over vanilla C code varies from 85% to 45%
238384Sjkim# depending on key length and benchmark. Unfortunately in this context
238384Sjkim# these are not very impressive results [for code that utilizes "wide"
238384Sjkim# 64x64=128-bit multiplication, which is not commonly available to C
238384Sjkim# programmers], at least hand-coded bn_asm.c replacement is known to
238384Sjkim# provide 30-40% better results for longest keys. Well, on a second
238384Sjkim# thought it's not very surprising, because z-CPUs are single-issue
238384Sjkim# and _strictly_ in-order execution, while bn_mul_mont is more or less
238384Sjkim# dependent on CPU ability to pipe-line instructions and have several
238384Sjkim# of them "in-flight" at the same time. I mean while other methods,
238384Sjkim# for example Karatsuba, aim to minimize amount of multiplications at
238384Sjkim# the cost of other operations increase, bn_mul_mont aim to neatly
238384Sjkim# "overlap" multiplications and the other operations [and on most
238384Sjkim# platforms even minimize the amount of the other operations, in
238384Sjkim# particular references to memory]. But it's possible to improve this
238384Sjkim# module performance by implementing dedicated squaring code-path and
238384Sjkim# possibly by unrolling loops...
238384Sjkim
238384Sjkim# January 2009.
238384Sjkim#
238384Sjkim# Reschedule to minimize/avoid Address Generation Interlock hazard,
238384Sjkim# make inner loops counter-based.
238384Sjkim
238384Sjkim# November 2010.
238384Sjkim#
238384Sjkim# Adapt for -m31 build. If kernel supports what's called "highgprs"
238384Sjkim# feature on Linux [see /proc/cpuinfo], it's possible to use 64-bit
238384Sjkim# instructions and achieve "64-bit" performance even in 31-bit legacy
238384Sjkim# application context. The feature is not specific to any particular
238384Sjkim# processor, as long as it's "z-CPU". Latter implies that the code
238384Sjkim# remains z/Architecture specific. Compatibility with 32-bit BN_ULONG
238384Sjkim# is achieved by swapping words after 64-bit loads, follow _dswap-s.
238384Sjkim# On z990 it was measured to perform 2.6-2.2 times better than
238384Sjkim# compiler-generated code, less for longer keys...
238384Sjkim
238384Sjkim$flavour = shift;
238384Sjkim
238384Sjkimif ($flavour =~ /3[12]/) {
238384Sjkim	$SIZE_T=4;
238384Sjkim	$g="";
238384Sjkim} else {
238384Sjkim	$SIZE_T=8;
238384Sjkim	$g="g";
238384Sjkim}
238384Sjkim
238384Sjkimwhile (($output=shift) && ($output!~/^\w[\w\-]*\.\w+$/)) {}
238384Sjkimopen STDOUT,">$output";
238384Sjkim
238384Sjkim$stdframe=16*$SIZE_T+4*8;
238384Sjkim
238384Sjkim$mn0="%r0";
238384Sjkim$num="%r1";
238384Sjkim
238384Sjkim# int bn_mul_mont(
238384Sjkim$rp="%r2";		# BN_ULONG *rp,
238384Sjkim$ap="%r3";		# const BN_ULONG *ap,
238384Sjkim$bp="%r4";		# const BN_ULONG *bp,
238384Sjkim$np="%r5";		# const BN_ULONG *np,
238384Sjkim$n0="%r6";		# const BN_ULONG *n0,
238384Sjkim#$num="160(%r15)"	# int num);
238384Sjkim
238384Sjkim$bi="%r2";	# zaps rp
238384Sjkim$j="%r7";
238384Sjkim
238384Sjkim$ahi="%r8";
238384Sjkim$alo="%r9";
238384Sjkim$nhi="%r10";
238384Sjkim$nlo="%r11";
238384Sjkim$AHI="%r12";
238384Sjkim$NHI="%r13";
238384Sjkim$count="%r14";
238384Sjkim$sp="%r15";
238384Sjkim
238384Sjkim$code.=<<___;
238384Sjkim.text
238384Sjkim.globl	bn_mul_mont
238384Sjkim.type	bn_mul_mont,\@function
238384Sjkimbn_mul_mont:
238384Sjkim	lgf	$num,`$stdframe+$SIZE_T-4`($sp)	# pull $num
238384Sjkim	sla	$num,`log($SIZE_T)/log(2)`	# $num to enumerate bytes
238384Sjkim	la	$bp,0($num,$bp)
238384Sjkim
238384Sjkim	st${g}	%r2,2*$SIZE_T($sp)
238384Sjkim
238384Sjkim	cghi	$num,16		#
238384Sjkim	lghi	%r2,0		#
238384Sjkim	blr	%r14		# if($num<16) return 0;
238384Sjkim___
238384Sjkim$code.=<<___ if ($flavour =~ /3[12]/);
238384Sjkim	tmll	$num,4
238384Sjkim	bnzr	%r14		# if ($num&1) return 0;
238384Sjkim___
238384Sjkim$code.=<<___ if ($flavour !~ /3[12]/);
238384Sjkim	cghi	$num,96		#
238384Sjkim	bhr	%r14		# if($num>96) return 0;
238384Sjkim___
238384Sjkim$code.=<<___;
238384Sjkim	stm${g}	%r3,%r15,3*$SIZE_T($sp)
238384Sjkim
238384Sjkim	lghi	$rp,-$stdframe-8	# leave room for carry bit
238384Sjkim	lcgr	$j,$num		# -$num
238384Sjkim	lgr	%r0,$sp
238384Sjkim	la	$rp,0($rp,$sp)
238384Sjkim	la	$sp,0($j,$rp)	# alloca
238384Sjkim	st${g}	%r0,0($sp)	# back chain
238384Sjkim
238384Sjkim	sra	$num,3		# restore $num
238384Sjkim	la	$bp,0($j,$bp)	# restore $bp
238384Sjkim	ahi	$num,-1		# adjust $num for inner loop
238384Sjkim	lg	$n0,0($n0)	# pull n0
238384Sjkim	_dswap	$n0
238384Sjkim
238384Sjkim	lg	$bi,0($bp)
238384Sjkim	_dswap	$bi
238384Sjkim	lg	$alo,0($ap)
238384Sjkim	_dswap	$alo
238384Sjkim	mlgr	$ahi,$bi	# ap[0]*bp[0]
238384Sjkim	lgr	$AHI,$ahi
238384Sjkim
238384Sjkim	lgr	$mn0,$alo	# "tp[0]"*n0
238384Sjkim	msgr	$mn0,$n0
238384Sjkim
238384Sjkim	lg	$nlo,0($np)	#
238384Sjkim	_dswap	$nlo
238384Sjkim	mlgr	$nhi,$mn0	# np[0]*m1
238384Sjkim	algr	$nlo,$alo	# +="tp[0]"
238384Sjkim	lghi	$NHI,0
238384Sjkim	alcgr	$NHI,$nhi
238384Sjkim
238384Sjkim	la	$j,8(%r0)	# j=1
238384Sjkim	lr	$count,$num
238384Sjkim
238384Sjkim.align	16
238384Sjkim.L1st:
238384Sjkim	lg	$alo,0($j,$ap)
238384Sjkim	_dswap	$alo
238384Sjkim	mlgr	$ahi,$bi	# ap[j]*bp[0]
238384Sjkim	algr	$alo,$AHI
238384Sjkim	lghi	$AHI,0
238384Sjkim	alcgr	$AHI,$ahi
238384Sjkim
238384Sjkim	lg	$nlo,0($j,$np)
238384Sjkim	_dswap	$nlo
238384Sjkim	mlgr	$nhi,$mn0	# np[j]*m1
238384Sjkim	algr	$nlo,$NHI
238384Sjkim	lghi	$NHI,0
238384Sjkim	alcgr	$nhi,$NHI	# +="tp[j]"
238384Sjkim	algr	$nlo,$alo
238384Sjkim	alcgr	$NHI,$nhi
238384Sjkim
238384Sjkim	stg	$nlo,$stdframe-8($j,$sp)	# tp[j-1]=
238384Sjkim	la	$j,8($j)	# j++
238384Sjkim	brct	$count,.L1st
238384Sjkim
238384Sjkim	algr	$NHI,$AHI
238384Sjkim	lghi	$AHI,0
238384Sjkim	alcgr	$AHI,$AHI	# upmost overflow bit
238384Sjkim	stg	$NHI,$stdframe-8($j,$sp)
238384Sjkim	stg	$AHI,$stdframe($j,$sp)
238384Sjkim	la	$bp,8($bp)	# bp++
238384Sjkim
238384Sjkim.Louter:
238384Sjkim	lg	$bi,0($bp)	# bp[i]
238384Sjkim	_dswap	$bi
238384Sjkim	lg	$alo,0($ap)
238384Sjkim	_dswap	$alo
238384Sjkim	mlgr	$ahi,$bi	# ap[0]*bp[i]
238384Sjkim	alg	$alo,$stdframe($sp)	# +=tp[0]
238384Sjkim	lghi	$AHI,0
238384Sjkim	alcgr	$AHI,$ahi
238384Sjkim
238384Sjkim	lgr	$mn0,$alo
238384Sjkim	msgr	$mn0,$n0	# tp[0]*n0
238384Sjkim
238384Sjkim	lg	$nlo,0($np)	# np[0]
238384Sjkim	_dswap	$nlo
238384Sjkim	mlgr	$nhi,$mn0	# np[0]*m1
238384Sjkim	algr	$nlo,$alo	# +="tp[0]"
238384Sjkim	lghi	$NHI,0
238384Sjkim	alcgr	$NHI,$nhi
238384Sjkim
238384Sjkim	la	$j,8(%r0)	# j=1
238384Sjkim	lr	$count,$num
238384Sjkim
238384Sjkim.align	16
238384Sjkim.Linner:
238384Sjkim	lg	$alo,0($j,$ap)
238384Sjkim	_dswap	$alo
238384Sjkim	mlgr	$ahi,$bi	# ap[j]*bp[i]
238384Sjkim	algr	$alo,$AHI
238384Sjkim	lghi	$AHI,0
238384Sjkim	alcgr	$ahi,$AHI
238384Sjkim	alg	$alo,$stdframe($j,$sp)# +=tp[j]
238384Sjkim	alcgr	$AHI,$ahi
238384Sjkim
238384Sjkim	lg	$nlo,0($j,$np)
238384Sjkim	_dswap	$nlo
238384Sjkim	mlgr	$nhi,$mn0	# np[j]*m1
238384Sjkim	algr	$nlo,$NHI
238384Sjkim	lghi	$NHI,0
238384Sjkim	alcgr	$nhi,$NHI
238384Sjkim	algr	$nlo,$alo	# +="tp[j]"
238384Sjkim	alcgr	$NHI,$nhi
238384Sjkim
238384Sjkim	stg	$nlo,$stdframe-8($j,$sp)	# tp[j-1]=
238384Sjkim	la	$j,8($j)	# j++
238384Sjkim	brct	$count,.Linner
238384Sjkim
238384Sjkim	algr	$NHI,$AHI
238384Sjkim	lghi	$AHI,0
238384Sjkim	alcgr	$AHI,$AHI
238384Sjkim	alg	$NHI,$stdframe($j,$sp)# accumulate previous upmost overflow bit
238384Sjkim	lghi	$ahi,0
238384Sjkim	alcgr	$AHI,$ahi	# new upmost overflow bit
238384Sjkim	stg	$NHI,$stdframe-8($j,$sp)
238384Sjkim	stg	$AHI,$stdframe($j,$sp)
238384Sjkim
238384Sjkim	la	$bp,8($bp)	# bp++
238384Sjkim	cl${g}	$bp,`$stdframe+8+4*$SIZE_T`($j,$sp)	# compare to &bp[num]
238384Sjkim	jne	.Louter
238384Sjkim
238384Sjkim	l${g}	$rp,`$stdframe+8+2*$SIZE_T`($j,$sp)	# reincarnate rp
238384Sjkim	la	$ap,$stdframe($sp)
238384Sjkim	ahi	$num,1		# restore $num, incidentally clears "borrow"
238384Sjkim
238384Sjkim	la	$j,0(%r0)
238384Sjkim	lr	$count,$num
238384Sjkim.Lsub:	lg	$alo,0($j,$ap)
238384Sjkim	lg	$nlo,0($j,$np)
238384Sjkim	_dswap	$nlo
238384Sjkim	slbgr	$alo,$nlo
238384Sjkim	stg	$alo,0($j,$rp)
238384Sjkim	la	$j,8($j)
238384Sjkim	brct	$count,.Lsub
238384Sjkim	lghi	$ahi,0
238384Sjkim	slbgr	$AHI,$ahi	# handle upmost carry
238384Sjkim
238384Sjkim	ngr	$ap,$AHI
238384Sjkim	lghi	$np,-1
238384Sjkim	xgr	$np,$AHI
238384Sjkim	ngr	$np,$rp
238384Sjkim	ogr	$ap,$np		# ap=borrow?tp:rp
238384Sjkim
238384Sjkim	la	$j,0(%r0)
238384Sjkim	lgr	$count,$num
238384Sjkim.Lcopy:	lg	$alo,0($j,$ap)		# copy or in-place refresh
238384Sjkim	_dswap	$alo
238384Sjkim	stg	$j,$stdframe($j,$sp)	# zap tp
238384Sjkim	stg	$alo,0($j,$rp)
238384Sjkim	la	$j,8($j)
238384Sjkim	brct	$count,.Lcopy
238384Sjkim
238384Sjkim	la	%r1,`$stdframe+8+6*$SIZE_T`($j,$sp)
238384Sjkim	lm${g}	%r6,%r15,0(%r1)
238384Sjkim	lghi	%r2,1		# signal "processed"
238384Sjkim	br	%r14
238384Sjkim.size	bn_mul_mont,.-bn_mul_mont
238384Sjkim.string	"Montgomery Multiplication for s390x, CRYPTOGAMS by <appro\@openssl.org>"
238384Sjkim___
238384Sjkim
238384Sjkimforeach (split("\n",$code)) {
238384Sjkim	s/\`([^\`]*)\`/eval $1/ge;
238384Sjkim	s/_dswap\s+(%r[0-9]+)/sprintf("rllg\t%s,%s,32",$1,$1) if($SIZE_T==4)/e;
238384Sjkim	print $_,"\n";
238384Sjkim}
238384Sjkimclose STDOUT;