Descargar SMOLRSRWKV - Descargar el código fuente smolrsrwkv smolrsrwkv

smolrsrwkv

Código Fuente de IA

1.0.0

Descargar

Smol rust rwkv

¿Qué es?

Un ejemplo del enfoque de RWKV para los modelos de idiomas escritos en Rust por alguien que sabe muy poco sobre las redes matemáticas o neuronales. La versión inicial se basó mucho en la increíble información y el ejemplo de Python aquí: https://johanwind.github.io/2023/03/23/rwkv_details.html

Vea también el repositorio del creador de RWKV: https://github.com/blinkdl/chatrwkv/

Características

Escrito en óxido. La escritura estática realmente puede ayudar al tratar de entender algo, ya que está claro qué tipo de cosa es cada objeto.
No depende de marcos masivos como la antorcha o Cuda.
Puede usar todos los hilos/núcleos para inferencia.
Admite inferencia Float32 y 8 bits, así como una inferencia de 4 bits con GGML.

Deficiencias

No es realmente optimizado para el rendimiento.
Solo puede cuantificarse sobre la mosca (puede, por lento para grandes modelos).
Solo puede ejecutar inferencia en la CPU.

Si se carga en modo de 32 bits, usa mucha memoria. El modelo 3B utiliza alrededor de 11 GB de RAM y el 7b uno podría caber en una máquina de 32 GB, está dispuesto a cerrar otras aplicaciones o tratar algunos intercambios. Incluso la carga en el modo de 8 bits usa una buena cantidad de memoria, pero desplegará una vez que se haya completado la carga.

¿Cómo puedo usarlo?

Necesitarás óxido y configuración de carga: https://www.rust-lang.org/learn/get-started

Deberá descargar un modelo RWKV. Aquí hay un enlace para comenzar (alrededor de 820 MB): https://huggingface.co/blinkdl/rwkv-4-pile-430m/resolve/main/rwkv-4-pile-430m-20220808-8066.pth.pth

También el tokenizador aquí: https://github.com/blinkdl/chatrwkv/blob/main/20b_tokenizer.json

Los archivos del modelo Pytorch se pueden cargar directamente. Si los archivos terminan con .pt o .pth , se cargará como un modelo Pytorch. Si termina con .st o .safetensors entonces se cargará como Safetensors. Nota : El soporte de Pytorch es actualmente experimental y puede no funcionar correctamente. Es probable que reciba un error inmediatamente si hay un problema, por lo que no debería ser peligroso probar ese enfoque. Si lo desea, puede deshabilitar la función torch y solo crear soporte para archivos de formato Safetensors.

Después de eso, deberías poder cargo run --release . Puede intentar compilar sin --release pero es probable que todo sea increíblemente lento. Pruebe también cargo run --release -- --help para ver las opciones de línea de comandos.

Nota : El valor predeterminado es usar todos los núcleos lógicos, consulte las opciones de línea de comandos.

Opcionalmente, puede convertir el archivo del modelo .pth en formato Safetensors. Mire utils/pth_to_safetensors.py para un ejemplo. Para hacer esto, necesitará los paquetes safetensors y torch Python configurados. Sugiero hacer esto en un entorno virtual. Actualmente no hay una gran ventaja en este paso, ya que los archivos de antorcha se pueden cargar directamente en la versión actual.

Nota de desarrollo ggml

El soporte GGML actualmente necesita una versión parcheada de ggml y ggml-sys del proyecto llama-rs .

El Cargo.toml está configurado para apuntar a la rama correcta en mi bifurcación, pero esto desaparecerá una vez que los cambios necesarios se fusionen en GGML. Naturalmente, este repositorio se actualizará, pero tenga en cuenta que sus compilaciones pueden comenzar a fallar eventualmente si está tratando de usar una versión anterior, ya que eventualmente se eliminará esa rama.

Cómo funciona

Nota: Esta parte está un poco anticuada ahora. Sin embargo, todavía recomiendo leer los enlaces a continuación. Tenga en cuenta también que esa descripción se basa en una versión más simple del modelo RWKV con solo cuatro estados por capa. La versión completa tiene cinco.

Aquí hay una descripción (posiblemente incorrecta) de alto nivel de los pasos involucrados en la evaluación del modelo. Deberá consultar la fuente en smolrwkv/src/simple/model.rs para que esto tenga sentido.

Además, considere fuertemente leerlos primero:

https://johanwind.github.io/2023/03/23/rwkv_overview.html - Explicación de alto nivel.
https://johanwind.github.io/2023/03/23/rwkv_details.html - Explicación más detallada con un ejemplo de Python.

Por cierto, un hecho divertido: "Tensor" suena realmente elegante, pero básicamente es solo una matriz. Un tensor unidimensional es solo una matriz unidimensional, un tensor dimensional bidimensional es una matriz bidimensional. Pueden tener propiedades especiales (como ser inmutable), pero eso no importa para comprender el concepto en general. Si conoce matrices, ya tiene la idea general de tensores.

Para evaluar un token:

Calcule un valor inicial para x de ln0 .
Alimente esta x a cada capa secuencialmente, usando la capa x generada para la siguiente.
1. Toma x que se alimentó.
2. Aplique ln1 a x y alimente a la mezcla de tiempo. Esto usa tensor de la parte FFN del modelo.
  1. Tome tm_state desde el estado de la capa y llámelo last_x . (¿Por qué? ¡Quién sabe!)
  2. Tome tm_num y tm_den como last_num , last_den .
  3. Haga un montón de cosas de matemáticas elegantes que no estoy calificado para explicar.
  4. Los nuevos valores calculados anteriormente para tm_[state,num,den] así que actualice su estado de capa con estos.
  5. También return x que resultó de los cálculos.
3. Agregue la x desde el tiempo Mezcla a x ( x += time_mixing_x ).
4. Aplique ln2 a x y alimente a la mezcla de canales. Esto utiliza tensores de la parte de red Feed Forward del modelo.
  1. Tome cm_state desde el estado de la capa y llámelo last_x .
  2. Sin embargo, más cosas de matemáticas elegantes (menos involucradas que el tiempo de mezcla).
  3. Al igual que con la mezcla de tiempo, esto calculará un nuevo cm_state , así que actualice el estado de la capa.
  4. Return x que resultó del cálculo de mezcla de canales.
5. Agregue la x desde la mezcla de canales a x .
Haga cosas de matemáticas elegantes para la x que fue el resultado después de evaluar la última capa.
Devuélvalo como la lista de probabilidades para cada token.

El modelo tiene una lista de tokens que "sabe". A veces, un token es igual a una palabra, a veces es solo parte de una palabra. Por lo general, hay una gran cantidad de tokens, en el rango de 30,000-60,000. Creo que los modelos RWKV actuales tienen 50,277 tokens. De todos modos, obtendrá una lista de 50,277 números de punto flotante después de ejecutar el modelo.

El valor más alto de esa lista es el token que el modelo predice es la continuación más probable, etc. Si generó una lista ordenada de las 10-40 más o menos probabilidades de tokens y selecciona una al azar, obtendrá una salida bastante razonable, relativamente hablando. Justo decir que un pequeño modelo de 430m no produce la salida más razonable en general.

Buena explicación de cómo manejar el siguiente paso una vez que tenga la lista de probabilidades: https://huggingface.co/blog/how-to-generate

Trivialidades

Hay varias cosas matemáticas complicadas involucradas en la evaluación del modelo, pero lo único que realmente importa es la multiplicación de matriz ( pardot en la fuente). En el caso de RWKV, es la multiplicación del vector matriz (una matriz 2D multiplicada con una matriz 1D). > El 90% del tiempo dedicado a evaluar el modelo está en esas llamadas de multiplicación de matriz.

En modo no GGM, el manejo de matemáticas/matriz aquí usa la caja ndarray . Proporciona una función .dot , sin embargo, esto nunca calculará una multiplicación de vector matriz en paralelo a pesar de que la caja afirma que el soporte de roscado. Debido a que este cálculo es tan crítico para el rendimiento, terminé escribiendo mi propia función para dividir el cálculo en trozos y ejecutarlo en paralelo. Vea las funciones en el módulo dumdot en smolrwkv/src/util.rs .

El hecho de que obtenga una lista de probabilidades y ninguna "respuesta" definitiva del modelo parece un contraargumento decente a la idea de que los LLM son o podrían ser conscientes de alguna manera. Cuando miras la salida de un LLM, muchas veces ni siquiera vas a ver el token más probable. Además, un hecho divertido: cuando alimenta un aviso a un modelo, se le ocurre una lista de probabilidades como cuando le pide una respuesta. Sin embargo, esas probabilidades se desechan, excepto el resultado después de procesar la última token de inmediato.

Salida de ejemplo

Aviso en negrita. Entonces, ¿son las serpientes o perros de los dragones? ¡El mundo puede nunca saber!

 * Loading tokenizer from: ./20B_tokenizer.json
* Loading model from: ./RWKV-4-Pile-430M-20220808-8066.safetensors
* Discovering model structure.
-   Loading layer 1/24
[...]
-   Loading layer 24/24
* Loading non-layer tensors.
* Loaded: layers=24, embed=1024, vocab=50277

En un hallazgo impactante, los científicos descubrieron una manada de dragones que vivían en un valle remoto y previamente inexplorado, en el Tíbet. Aún más sorprendente para los investigadores fue el hecho de que los Dragones hablaban chino perfecto.

Todos estos dragones hablaban diferentes dialectos y estos dialectos no coincidían con el idioma nativo de los perros.

En un intento por descifrar lo que hablaban estos dragones, llamaron a los dragones y descubrieron que su lenguaje era diferente de los humanos.

"Los dragones entendieron las palabras humanas y más precisamente lenguas humanas. Los dragones hablaban el lenguaje humano. También entendieron las reglas para los chinos", dijo el equipo de investigación a Mongabay.

Al realizar la investigación, esperan arrojar luz sobre la misteriosa historia de los dragones en las remotas regiones remotas del mundo, especialmente en el Tíbet.

El proyecto de investigación, publicado en la revista Open Science, también muestra que los dragones son, de hecho, reptiles, o también conocidos como serpientes de árboles.

Dragón, no serpiente

Según el equipo de investigación, los dragones encontrados en el Tíbet son una raza de perros, no un reptil.

Si bien el equipo de investigación aún no pudo encontrar ninguna explicación de por qué estos dragones viven en el Tíbet, se creía previamente que probablemente estaban presentes en una tierra cerca de la meseta tibetana.

"Los dragones viven allí como parte de la gran meseta de Qinghai-Tibet que está casi completamente intacta y toda la meseta de Qinghai-Tibet se convirtió gradualmente en un estado agrícola. Por lo tanto, tienen un patrón distintivo de masticación en los árboles, y probablemente los animales no son demasiado grandes para mantenerse en la naturaleza", explicaron los investigadores.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-09
tamaño 39.62KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo