U
    T?h<  ã                   @   sà   d dl Z d dlZd dlZd dlZd dlmZ d dlZd dlZd dlmZm	Z	m
Z
mZmZ d dlmZmZmZmZ d dlmZ d dlmZ d dlmZ d dlmZ e d	¡Zdd
d„Zdd„ ZedkrÜeƒ Zeej ƒ eeƒ dS )é    N)Údatetime)Ú	PrecisionÚcreate_onnxruntime_sessionÚget_ort_environment_variablesÚprepare_environmentÚsetup_logger)ÚDEFAULT_TOLERANCEÚMODEL_CLASSESÚPRETRAINED_GPT2_MODELSÚ
Gpt2Helper)Úversion)ÚQuantizeHelper)Ú
AutoConfig)Ú__version__Ú c                 C   s@  t  ¡ }|jdddtdd t¡ d |jddtd	tt ¡ ƒd
d t ¡ ¡ d |jddtt	j
 dd¡dd |jddtt	j
 dd¡dd |jdddtdd |jdddddd |jdddddd |jdd  |jd!td"dd"d#d$gd%d& |jd'ddd(d |jdd) |jd*d+ttjttƒd,d- |jd.ddd/d |jdd0 |jd1d2d3td#gd4d5 |jd6d3td#gd7d5 |jd8d9d3td:d;d<d=d>d?gd@d5 |jdAdBdd dCdD |jdEdtdFdGd |jdHdddI |jddJ |jdKdddI |jddL |jdMdddI |jddN |jdOdddI |jddP | | ¡}|S )QNz-mz--model_name_or_pathTz;Model path, or pretrained model name selected in the list: z, )ÚrequiredÚtypeÚhelpz--model_classFZGPT2LMHeadModelz!Model type selected in the list: )r   r   ÚdefaultÚchoicesr   z--cache_dirÚ.Zcache_modelsz%Directory to cache pre-trained models)r   r   r   r   z
--onnx_dirZonnx_modelszDirectory to store onnx modelsz--test_timeséd   z8Number of repeat times to get average inference latency.)r   r   r   r   z-vz--validate_onnxÚ
store_truezValidate ONNX model)r   Úactionr   z-oz--optimize_onnxz'Use optimizer.py to optimize onnx model)Úoptimize_onnxz--stager   é   é   a6  Stage in generation: 1 (initial decoder), 2 (decoder), 0 (both). 1 - decode the first token when past_sequence_length is zero; 2 - decode the remaining tokens when past_sequence_length is not zero; 0 - one onnx model for both stages 1 and 2. Note that we will optimize 1 and 2 differently for best performance.)r   r   r   r   r   z	--use_gpuzuse GPU for inference)Úuse_gpuz-pz--precisionzfPrecision of model to run. fp32 for full precision, fp16 for half precision, and int8 for quantization)r   r   r   r   z--torchscriptzuse Torchscript)Útorchscriptz-bz--batch_sizesú+z
batch size)Únargsr   r   r   z--sequence_lengthsz!sequence lengths (excluding past)z-sz--past_sequence_lengthsé   é   é    é@   é€   é   zpast sequence lengthsz-rz--result_csvz$CSV file for saving summary results.)r   r   r   z--thread_numéÿÿÿÿzThreads to usez--include_copy_output_latency)r   r   )Úinclude_copy_output_latencyz	--verbose)Úverbosez--output_torch_latency)Úoutput_torch_latencyz--disable_io_binding)Údisable_io_binding)ÚargparseÚArgumentParserÚadd_argumentÚstrÚjoinr
   Úlistr	   ÚkeysÚosÚpathÚintÚset_defaultsr   ÚFLOAT32Ú
parse_args)ÚargvÚparserÚargs© r<   úe/var/www/html/venv/lib/python3.8/site-packages/onnxruntime/transformers/models/gpt2/benchmark_gpt2.pyÚparse_arguments!   sÔ    û
ú	ûûûûûúú	ûú	û
r>   c           !      C   sÂ  t  t¡t  d¡k rtdƒ‚t d| › ¡ | jtjkrL| j	rD| j
sLtdƒ‚| jtjkrf| j
rftdƒ‚| jdkr„| jdgks„tdƒ‚t | jdkržtjd	d
n| j¡ ttj ¡ ƒ | j}| j}t||| j
ƒ t| j d }t}tj| j| j |d}|j| j||d}t !| j
rdnd¡}| "|¡ |j#dk}|j$|| j| jd	|d}	|	d }
t| j d }|j%|||
| j&|||d | j	sŽ| jtj'kr$|	| jtjkr¨t(| jƒnd }
|j	|	d |
| jtjk|j)j*|j)j+|d	| jd | jtjkr$t d¡ t, -|
|	d |¡ t, .|¡}t d¡ |	d }
| j r@|j |||||d}t/|
| j
d| j| j&d}|d krfd S | 0t1| j2ƒt1| jƒt1| j3ƒ|| j¡}| 4||| jtjk¡}| j5p¼d 6t7 8¡  9d¡¡}t:|dddÚ}d d!d"d#d$d%d&d'd(d)d*d+d,d-g}t;j<||d.}| =¡  | j2D ]”}| j3D ]„}| jD ]t}|dkrH|dkrH|dksLt‚t >d/|||¡ |j?||||j*|j+|j#|j@|| jtjk||d0}| 0||||| j¡}z¾| jAs´| jBr*| C||| jD¡\}}tE|ƒD ]V\}}tF|tGƒrt >d1|› d2tH|ƒ› d3|d jI› ¡ nt >d1|› d4|jI› ¡ qÐnd }d }| jJrP| K||| jD¡\}}n |jL||||| jDd| jMd5\}}| jArâ|}| jJs¦g }|D ]}| N| O¡  P¡ ¡ qŒ|jQ||| jtR| j tR| j d6rât d7tR| j › d8¡ t d9||||| jJrüd:nd|rd;nd¡ | j| j| jtSƒ | j
| j| j	| j |||| jJ|rF|d<›nd=|d<›d>œ} | T| ¡ W n6 tUk
r–   tjVd?d	d@ Y    W 5 Q R £ d S X q$qqW 5 Q R X t dA|› ¡ |S )BNz3.1.0z/This tool requires transformers 3.1.0 or later.z
Arguments:z'fp16 requires --optimize_onnx --use_gpuzquantization only supports CPUr   r   z<past_sequence_lengths shall be 0 for stage==1 (init decoder)T)Zlogical)r   Ú	cache_dir)Úconfigr?   zcuda:0Úcpué   )Zhas_pastZ
new_folderÚrawr   )Úhas_position_idsÚhas_attention_maskZfp32)Zauto_mixed_precisionÚstagezquantizing model...Zint8zfinished quantizing modelF)Zenable_all_optimizationZnum_threadsr)   zbenchmark_result_{}.csvz%Y%m%d-%H%M%SÚar   )ÚmodeÚnewlineÚ
model_nameÚmodel_classrF   Úenvironment_variablesÚgpuÚ	precisionÚ	optimizerr   Ú
batch_sizeÚsequence_lengthÚpast_sequence_lengthr+   Útorch_latencyÚonnxruntime_latency)Ú
fieldnameszMRunning test for batch_size=%d sequence_length=%d past_sequence_length=%d ...)Zfloat16rD   rE   ztorch output z is tuple of size z, shape z shape )Zreturn_numpyr(   )rK   ZrtolZatolz:Pytorch and ONNX Runtime outputs are all close (tolerance=z).zZbatch_size=%d, sequence_length=%d, past_sequence_length=%d, onnxruntime_latency=%.2f %s %sz(disable_io_binding)z, torch_latency={torch_latency}z.2fÚNone)rJ   rK   rF   rL   rM   rN   rO   r   rP   rQ   rR   r+   rS   rT   Ú	Exception)Úexc_infozResults are saved to file )Wr   ÚparseÚtransformers_versionÚRuntimeErrorÚloggerÚinforN   r   ZFLOAT16r   r   ÚAssertionErrorZINT8rF   Zpast_sequence_lengthsÚtorchZset_num_threadsZ
thread_numÚpsutilÚ	cpu_countÚprintZ
__config__Zparallel_infor?   Zonnx_dirr   r	   rK   r   r   Zfrom_pretrainedZmodel_name_or_pathr   ÚdeviceÚtoZn_layerZget_onnx_pathsZexport_onnxr)   r7   r/   r@   Znum_attention_headsZhidden_sizer   Zquantize_onnx_modelZquantize_torch_modelr   Zget_output_shapesÚmaxZbatch_sizesZsequence_lengthsZget_output_buffersZ
result_csvÚformatr   ÚnowÚstrftimeÚopenÚcsvÚ
DictWriterÚwriteheaderÚdebugZget_dummy_inputsZ
vocab_sizeZvalidate_onnxr*   Zpytorch_inferenceZ
test_timesÚ	enumerateÚ
isinstanceÚtupleÚlenÚshaper+   Zonnxruntime_inferenceZ$onnxruntime_inference_with_binded_ior(   ÚappendrA   ÚnumpyZcompare_outputsr   r   ÚwriterowrW   Úerror)!r;   r?   Ú
output_dirrK   Z
gpt2helperr@   Úmodelrc   Zuse_external_data_formatZonnx_model_pathsZonnx_model_pathZuse_paddingÚsessionZmax_output_shapesZoutput_buffersZcsv_filenameZcsv_fileZcolumn_namesZ
csv_writerrP   rQ   rR   Zdummy_inputsZoutput_shapesÚoutputsrS   ÚiÚvalueZort_outputsZort_latencyZcopy_outputsÚoutputÚrowr<   r<   r=   Úmain¨   sš   ÿ
"

ûù
 
ø


ûû
ûò"ü
õûÿ  ÿ
ù

ûÿùò.r   Ú__main__)N)!r,   rj   Úloggingr3   r   r`   r_   Zbenchmark_helperr   r   r   r   r   Zgpt2_helperr   r	   r
   r   Ú	packagingr   Zquantize_helperr   Ztransformersr   r   rZ   Ú	getLoggerr\   r>   r   Ú__name__r;   r)   r<   r<   r<   r=   Ú<module>	   s*   

  s