
un nanogpt de barebones, pero finalmente sintonizado con los datos de conversación
Todas las actualizaciones en actualizaciones.md
Enlace de colab
Para ver sus capacilitas, diríjase a Colab Link, simplemente ejecute el git clone , pip install y prepare.py , luego ejecute chat.py con --init_from=huggingface
Conjunto de datos mediano (~ 700mb), lleno de una variedad de conversaciones y una pequeña aritmética
Modelo y conjuntos de datos Avalible en Huggingface
(en el mejor de los casos), puede hablar con usted sobre una variedad de temas y cambiar sin problemas entre temas
GPT-2-Medio 353 millones de parámetros
Inferencia muy rápida en GPU
Usuario para chatear
chat.py tiene funciones similares a la parada de la API de OpenAI, elimina todo el contenido después de una determinada palabra
Establecer contexto para comenzar la conversación, haciendo una personalidad completamente nueva para el chatbot
!python chat.py --init_from=huggingface --context=""
Esta es una bifurcación de nanogpt, pero entrenado en el formato de datos de un chatbot como chatgpt, con el formato inspirado en oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus , etc.Aunque probablemente fuera de alcance para este modelo, esto es algo para futuros modelos, con muchos modelos, puede preguntar de qué estaba hablando o resumir la conversación anterior. Cuando se intenta con este modelo:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Como podemos ver, continúa con una oración sobre minería, confirmando que entendía el contexto (información GPT2) pero no tiene la capacidad de recordar. Sospecho que tiene que ver con los datos de los modelos, y que si tuviera que alimentarlo con datos como datos de llamadas y resumen de contexto corto, obtendría esas habilidades
Cualquiera que pueda contribuir al repositorio, por favor, hágalo, todas y cada una de las contribuciones son bienvenidas, simplemente agregar un poco al conjunto de datos y expandir su conjunto de datos sería sorprendente.
No realicé los volcados/corpuses de datos que componen estos datos, y no pueden dar cuenta de ningún sesgo, ya que el conjunto de datos TI se basa en las conversaciones de personas reales que pueden o no haber tenido sesgos. El modelo está destinado a fines de investigación académica, y no está destinado a escenarios importantes o de alto riesgo. No sigas su consejo
Para fines comerciales, simplemente tome los archivos input1.txt a través de input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}