Descargar lmtool fwp - Descargar el código fuente lmtool fwp

lmtool fwp

Código Fuente de IA

1.0.0

Descargar

Kit de herramientas de modelado de lenguaje de Pytorch (para programadores de peso rápido)

Este repositorio contiene el código oficial utilizado para los experimentos de modelado de idiomas en los documentos:

Los transformadores lineales son programadores secretamente rápidos (ICML 2021)
Ir más allá de los transformadores lineales con programadores recurrentes de peso rápido
...

En términos más generales, esto se puede usar como un kit de herramientas de modelado de idiomas en Pytorch para experimentar:

Transformadores estándar
Transformador-xl
Programadores de peso rápido con diferentes reglas de actualización y funciones de atención lineal :
- Reglas de actualización: "suma" y nuestra regla "delta" (como se propone en nuestro documento; Sec 4.2)
- Funciones de atención lineal: "Atención lineal" basada en ELU, "Favor+", "Proyección sin parámetros deterministas (DPFP)"
Por ejemplo, algunas combinaciones dan como resultado modelos bien conocidos:
- Transformers lineal = "Sum" Regla de actualización + Atención lineal "basada en ELU"
- Artistas = "Sum" Regla de actualización + "Favor +"

Implementaciones de peso rápido

Este repositorio contiene dos implementaciones de pesos rápidos.

Kernel CUDA personalizado (ver Utils/Fast_Fast_weight and Utils/Cuda_Fast_weight_layer.py)
torch.autograd.Function personalizado (ver Utils/fast_weight.py)

Si bien solo utilizamos la implementación de CUDA para todos nuestros experimentos finales (utilización de GPU más rápida/mejor), la versión torch.autograd.Function La versión de función puede ser útil para una prototipos rápidos con nuevas extensiones.

Requisitos

Este kit de herramientas requiere Pytorch torch y ninja Ninja (para compilar los núcleos Cuda).

Los experimentos para el papel se realizaron con Python 3.6 y Pytorch 1.4.0 (nota el 24 de agosto de 2023: el código también funciona con Python 3.11 y Pytorch 2.0.1+Cu117).

Las versiones más recientes de Pytorch aún no están bien respaldadas por este kit de herramientas que todavía usa torch.nn.DataParallel para el entrenamiento multi-GPU. Si realmente necesita usar una versión más reciente de Pytorch, consulte la documentación para usar torch.nn.parallel.DistributedDataParallel en su lugar. Con suerte, arreglaremos esto pronto, pero no podemos decir exactamente cuándo.

El conjunto de herramientas admite pesos y prejuicios para monitorear trabajos. Si lo usa, también instale wandb .

Expresiones de gratitud

Esta repetición contiene muchas líneas de código tomadas y adaptadas de las siguientes fuentes:

Esta reposidad fue originalmente bifurcada de la implementación oficial de Transformer-XL KimiYoung/Transformer-XL. El código para los modelos Transformer-XL y Transformer estándar, así como la funcionalidad básica necesaria para el modelado de lenguaje (incluidas las incrustaciones adaptativas de entrada y salida) y la preparación de datos (Wikitext-103, Enwik8, ...) proviene del repositorio correspondiente.
Para los artistas, se utilizan funciones auxiliar de Lucidrains/Performer-Pytorch.
Para las implementaciones de CUDA de nuestros programadores de peso rápido con la regla delta:
- El código de IDIAP/Transformers Fast se usa con cambios menores para la regla de actualización de suma.
- Lo modificamos para implementar nuestra regla de actualización. Vea los comentarios en el código para ubicaciones y modificaciones exactas.

Instrucciones generales

Verifique los archivos en example_scripts para obtener instrucciones y ejemplos generales para capacitar y evaluar modelos.

Bibtex

 @inproceedings{schlag2021linear,
      title={Linear Transformers Are Secretly Fast Weight Programmers}, 
      author={Imanol Schlag and Kazuki Irie and J"urgen Schmidhuber},
      booktitle={Proc. Int. Conf. on Machine Learning (ICML)},
      address = {Virtual only},
      month = jul,
      year={2021}
}

 @article{irie2021going,
      title={Going Beyond Linear Transformers with Recurrent Fast Weight Programmers}, 
      author={Kazuki Irie and Imanol Schlag and R'obert Csord'as and J"urgen Schmidhuber},
      journal={Preprint arXiv:2106.06295},
      year={2021}
}

Campo de golf

El código para los experimentos de recuperación sintética en el papel "Los transformadores lineales son programadores de peso secretamente rápido" (ICML 2021) se pueden encontrar en ISCHLAG/Fast-Weight-Transformers.
Se puede encontrar el repositorio completo del documento "que va más allá de los transformadores lineales con programadores de peso rápido recurrentes" en: IDSIA/recurrente-FWP
Publicación del blog AI de Jürgen Schmidhuber sobre programadores de peso rápido (26 de marzo de 2021).

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-07
tamaño 147.08KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo