Descarga de nanoChatGPT - Descargar el código fuente de nanoChatGPT

nanoChatGPT

Código Fuente de IA

1.0.0

Descargar

nanochatgpt

un nanogpt de barebones, pero finalmente sintonizado con los datos de conversación

Todas las actualizaciones en actualizaciones.md
Enlace de colab
Para ver sus capacilitas, diríjase a Colab Link, simplemente ejecute el git clone , pip install y prepare.py , luego ejecute chat.py con --init_from=huggingface

Características

Conjunto de datos mediano (~ 700mb), lleno de una variedad de conversaciones y una pequeña aritmética
Modelo y conjuntos de datos Avalible en Huggingface
(en el mejor de los casos), puede hablar con usted sobre una variedad de temas y cambiar sin problemas entre temas
GPT-2-Medio 353 millones de parámetros
Inferencia muy rápida en GPU
Usuario para chatear
chat.py tiene funciones similares a la parada de la API de OpenAI, elimina todo el contenido después de una determinada palabra
Establecer contexto para comenzar la conversación, haciendo una personalidad completamente nueva para el chatbot
!python chat.py --init_from=huggingface --context=""

¿Cómo funciona?

Esta es una bifurcación de nanogpt, pero entrenado en el formato de datos de un chatbot como chatgpt, con el formato inspirado en oasst-pythia-12b

 <human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>

Problemas / Todos

Matemáticas y razonamiento lógico
- Si bien en su mayoría fuera del alcance de este modelo, esto es algo para modelos futuros, las dos opciones principales son detectar el código de backend matemáticas y ejecutar, o entrenar el modelo con una solicitud de matemáticas de cadena, que probablemente sea más factible, para un razonamiento lógico, podría intentar incorporar conjuntos de datos como garage-bAInd/Open-Platypus , etc.
Sin memoria/recuerdo
- Aunque probablemente fuera de alcance para este modelo, esto es algo para futuros modelos, con muchos modelos, puede preguntar de qué estaba hablando o resumir la conversación anterior. Cuando se intenta con este modelo:
```
 Human: Dogecoin is cool 
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
```
  Como podemos ver, continúa con una oración sobre minería, confirmando que entendía el contexto (información GPT2) pero no tiene la capacidad de recordar. Sospecho que tiene que ver con los datos de los modelos, y que si tuviera que alimentarlo con datos como datos de llamadas y resumen de contexto corto, obtendría esas habilidades

Cualquiera que pueda contribuir al repositorio, por favor, hágalo, todas y cada una de las contribuciones son bienvenidas, simplemente agregar un poco al conjunto de datos y expandir su conjunto de datos sería sorprendente.

Limitaciones

No realicé los volcados/corpuses de datos que componen estos datos, y no pueden dar cuenta de ningún sesgo, ya que el conjunto de datos TI se basa en las conversaciones de personas reales que pueden o no haber tenido sesgos. El modelo está destinado a fines de investigación académica, y no está destinado a escenarios importantes o de alto riesgo. No sigas su consejo

¿Qué hay en los datos?

Personachat Corpus (no para uso comercial)
Twitter descarga corpus
Corpus de diálogo de Ubuntu
Conversaciones de chatbot arena (no para uso comercial)
Chat empático de Parlai (no para uso comercial)
Hackernews descarga al corpus
Babylm desafío los datos del habla (inseguro, pero probablemente no para uso comercial)
Conjunto de datos aritmético de Eleuthier AI
una pequeña parte de Oasst-1

Para fines comerciales, simplemente tome los archivos input1.txt a través de input36.txt

citas

 @misc{zheng2023judging,
      title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena}, 
      author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
      year={2023},
      eprint={2306.05685},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Expandir

Información adicional