U
    Mâh£<  ã                   @   s|  d dl mZmZmZmZ d dlZd dlmZ ddlmZm	Z	m
Z
mZmZmZmZmZmZmZmZmZmZ ddgZG dd„ deƒZd	e› d
e› d
e
› d
e› d	e_ee ee ee ee ee ee eeeeeeeeedœdd„Zee ee ee ee ee ee eeeeeeeeedœdd„Zeeddee ee ee ee ee ee ee eeeeeeeeedœdd„ƒZdS )é    )ÚListÚOptionalÚTupleÚUnionN)ÚTensoré   )Ú_capturable_docÚ_default_to_fused_or_foreachÚ_differentiable_docÚ_disable_dynamo_if_unsupportedÚ_foreach_docÚ!_get_capturable_supported_devicesÚ_get_scalar_dtypeÚ
_get_valueÚ_maximize_docÚ_use_grad_for_differentiableÚ_view_as_realÚ	OptimizerÚParamsTÚASGDÚasgdc                       s\   e Zd Zdeeeeeeee eeedœ
‡ fd	d
„Z‡ fdd„Zdd„ Z	e
ddd„ƒZ‡  ZS )r   ç{®Gáz„?ç-Cëâ6?ç      è?ç    €„.Ar   NF)
ÚparamsÚlrÚlambdÚalphaÚt0Úweight_decayÚforeachÚmaximizeÚdifferentiableÚ
capturablec                    sX   d|kst d|› ƒ‚d|ks,t d|› ƒ‚t||||||||	|
d	}tƒ  ||¡ d S )Ng        zInvalid learning rate: zInvalid weight_decay value: )	r   r   r   r   r    r!   r"   r#   r$   )Ú
ValueErrorÚdictÚsuperÚ__init__)Úselfr   r   r   r   r   r    r!   r"   r#   r$   Údefaults©Ú	__class__© úB/var/www/html/venv/lib/python3.8/site-packages/torch/optim/asgd.pyr(      s     ÷zASGD.__init__c                    sú   t ƒ  |¡ | jD ]â}| dd ¡ | dd¡ | dd¡ | dd¡ |d D ]¤}| j |g ¡}t|ƒdkrNt |d ¡sžt	|d ƒ}tj
|tƒ |jd	|d< t |d
 ¡sÈtj
|d
 tƒ |jd	|d
< t |d ¡sNtj
|d tƒ |jd	|d< qNqd S )Nr!   r"   Fr#   r$   r   r   Ústep)ÚdtypeÚdeviceÚetaÚmu)r'   Ú__setstate__Úparam_groupsÚ
setdefaultÚstateÚgetÚlenÚtorchZ	is_tensorÚfloatÚtensorr   r1   )r)   r7   ÚgroupÚpZp_stateZstep_valr+   r-   r.   r4   :   s8    
  ÿ
  ÿ
  ÿzASGD.__setstate__c                 C   s
  d}|d D ]ø}	|	j d k	r|t |	¡O }| |	¡ |	j jrBtdƒ‚| |	j ¡ | j|	 }
t|
ƒdkrÌtjd|	j	t
ƒ d|
d< tj|d |	j	t
ƒ d ¡  ¡ |
d	< tjd|	j	t
ƒ d|
d
< tj|	tjd|
d< | |
d
 ¡ | |
d ¡ | |
d	 ¡ | |
d ¡ q|S )NFr   z&ASGD does not support sparse gradientsr   r-   )r1   r0   r/   r   r2   r3   )Zmemory_formatÚax)Úgradr:   Ú
is_complexÚappendZ	is_sparseÚRuntimeErrorr7   r9   Zzerosr1   r   Ú	as_tensorÚcloneÚdetachZonesZ
zeros_likeZpreserve_format)r)   r=   Úparams_with_gradÚgradsÚmusÚaxsÚetasÚstate_stepsÚhas_complexr>   r7   r-   r-   r.   Ú_init_groupR   sF    


  ÿ
  ÿÿ  ÿ
 ÿ
zASGD._init_groupc                 C   s¸   |   ¡  d}|dk	r.t ¡  |ƒ }W 5 Q R X | jD ]~}g }g }g }g }g }g }	|  |||||||	¡}
t||||||	|d |d |d |d |d |d |d |d	 |d
 |
d q4|S )z°Perform a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   r   r   r   r    r!   r"   r#   r$   )
r   r   r   r   r    r!   r"   r#   r$   rM   )Z _cuda_graph_capture_health_checkr:   Zenable_gradr5   rN   r   )r)   ÚclosureZlossr=   rG   rH   rI   rJ   rK   rL   rM   r-   r-   r.   r/   v   sP    

      ÿðz	ASGD.step)	r   r   r   r   r   NFFF)N)Ú__name__Ú
__module__Ú__qualname__r   r;   r   Úboolr(   r4   rN   r   r/   Ú__classcell__r-   r-   r+   r.   r      s2            õõ$ah  Implements Averaged Stochastic Gradient Descent.

    It has been proposed in `Acceleration of stochastic approximation by
    averaging`_.

    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-2)
        lambd (float, optional): decay term (default: 1e-4)
        alpha (float, optional): power for eta update (default: 0.75)
        t0 (float, optional): point at which to start averaging (default: 1e6)
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        z	
        zx

    .. _Acceleration of stochastic approximation by averaging:
        https://dl.acm.org/citation.cfm?id=131098

    )r   rH   rJ   rI   rK   rL   r   r   r   r   r    r"   r#   r$   rM   c       	      
   C   s  t | ƒD ]\}}|| }|s"|n| }|| }|| }|| }|| }tj ¡ sª|rªtƒ }|jj|jj  krŠ|jj  krŠ|jjkršn n|jj|ksªtd|› dƒ‚t |¡rÒt 	|¡}t 	|¡}t 	|¡}|d7 }|
dkrð|j
||
d}|r| d||  ¡ |j||dd n*t|ƒ}| d||  ¡ |j|| d |sX| ¡ dkrp| | |¡ |¡¡ n
| |¡ |rÀ| |d|| |  |	  ¡ | dt || t |¡¡ ¡ qt|ƒ}t |d|| |  |	  ¡}| |¡ t dtd|| ƒ ¡}| |¡ qd S )NúUIf capturable=True, params, mus, etas, and state_steps must be on supported devices: Ú.r   r   ©r   éÿÿÿÿ©Úvalue)Ú	enumerater:   Ú_utilsÚis_compilingr   r1   ÚtypeÚAssertionErrorrA   Zview_as_realÚaddZmul_Zaddcmul_r   Zadd_ÚitemÚsubZcopy_ÚmaximumZ	ones_likerD   Úmax)r   rH   rJ   rI   rK   rL   r   r   r   r   r    r"   r#   r$   rM   ÚiÚparamr@   r3   r?   r2   Zstep_tÚcapturable_supported_devicesZ	eta_valuer/   Znew_etaZnew_mur-   r-   r.   Ú_single_tensor_asgd¿   sX    þýü

û
ù



"
rh   c       	            sL  t | ƒdkrd S |rtdƒ‚tj ¡ sd|rdtdd‰t‡fdd„t| |||ƒD ƒƒsdtdˆ› dƒ‚t 	| |||||g¡}| 
¡ D ]Â\\‰}\\}}}}}}}|r°t|||ƒ |r¾t |¡}|d jrätj|tjd	d
dd	d nt |d¡ |
dkr8|rtj|||
d |}ntj|||
d}tj||ˆd ntj||ˆd}tj|||dd ~t ||¡}t |||¡ ~|rt |ˆ¡}t |d	¡ t |¡ t ||¡ ~t |ˆ¡}t |ˆ¡ t |d¡ t |ˆ ¡ t |¡ t |ˆ¡ t ||¡ q‚‡ ‡‡‡fdd„|D ƒ}‡‡fdd„|D ƒ}t ||¡ t ||¡ q‚d S )Nr   z#_foreach ops don't support autogradF)Zsupports_xlac                 3   sT   | ]L\}}}}|j j|j j  ko:|j j  ko:|j jkn  oJ|j jˆ kV  qd S )N)r1   r^   )Ú.0r>   r3   r2   r/   )rg   r-   r.   Ú	<genexpr>'  s   
þ2z%_multi_tensor_asgd.<locals>.<genexpr>rU   rV   g      ð?Úcpu©r1   rW   r   rX   rY   c                    s.   g | ]&}t jˆd ˆˆ |  ˆ   ˆd‘qS ©r   rl   )r:   rD   ©ri   r/   )r   r1   r   r   r-   r.   Ú
<listcomp>ƒ  s   ÿz&_multi_tensor_asgd.<locals>.<listcomp>c                    s,   g | ]$}t jd td t|ƒˆ ƒ ˆ d‘qS rm   )r:   rD   rd   r   rn   )r1   r   r-   r.   ro   ‡  s   ÿ)r9   r_   r:   r\   r]   r   ÚallÚzipr   Z"_group_tensors_by_device_and_dtypeÚitemsr   Z_foreach_negZis_cpuZ_foreach_add_r<   Z_foreach_addZ_foreach_addcmul_Z_foreach_subZ_foreach_maximum_Z_foreach_reciprocal_Z_foreach_copy_Z_foreach_mulZ_foreach_mul_Z_foreach_pow_)r   rH   rJ   rI   rK   rL   r   r   r   r   r    r"   r#   r$   rM   Zgrouped_tensorsÚ_Zgrouped_paramsZgrouped_gradsZgrouped_axsZgrouped_musZgrouped_etasZgrouped_state_stepsZintermediateZnew_musZnew_etasr-   )r   rg   r1   r   r   r   r.   Ú_multi_tensor_asgd  sš    ÿý

üÿö

  ÿ
  ÿ  ÿ


þþrt   )Zsingle_tensor_fnF)r   rH   rJ   rI   rK   rL   r!   r"   r#   r$   rM   r   r   r   r   r    c                C   sr   |dkrt | |dd\}}|r0tj ¡ r0tdƒ‚|rDtj ¡ sDt}nt}|| |||||||||||||	|
d dS )znFunctional API that performs asgd algorithm computation.

    See :class:`~torch.optim.ASGD` for details.
    NF)Z	use_fusedz6torch.jit.script not supported with foreach optimizers)	r   r   r   r   r    r"   r#   r$   rM   )r	   r:   ZjitZis_scriptingrC   rt   rh   )r   rH   rJ   rI   rK   rL   r!   r"   r#   r$   rM   r   r   r   r   r    rs   Úfuncr-   r-   r.   r     s8      ÿ
ñ)NFFFF)Útypingr   r   r   r   r:   r   Z	optimizerr   r	   r
   r   r   r   r   r   r   r   r   r   r   Ú__all__r   Ú__doc__r;   rS   rh   rt   r   r-   r-   r-   r.   Ú<module>   s   < óòñð
ðMð 
     óí