Lawmate Romania é um projeto focado em criar um grande modelo de idioma (LLM) especializado no domínio legal romeno. Este modelo foi projetado para ajudar em várias tarefas legais, entendendo e gerando texto com base em documentos legais romenos. O projeto usa o modelo pré-treinado Equall/Saul-7B-Instruct-V1 da Biblioteca de Hugging Face, especificamente ajustada em textos legais romenos como a Constituição e a Lei da Educação.
documents/ : Contém documentos de texto usados para treinar o modelo, incluindo a Constituição Romena e a Lei da Educação.
training_ds/ : Contém os arquivos do conjunto de dados gerados a partir dos documentos de texto para fins de treinamento.
env_llm.txt : lista as dependências e configurações de ambiente necessárias para executar o projeto.
main.py : o principal script para treinamento e avaliação do Modelo de Linguagem Grande (LLM).
.gitignore : Especifica arquivos e diretórios a serem ignorados pelo Git para manter o repositório limpo.
LawMate Romania/ : Inclui o script e as capturas de tela do Chatbot demonstrando interações de exemplo.
Configure o ambiente :
pip install -r env_llm.txtPrepare os arquivos PDF :
documents/ diretórios.Tune o modelo :
main.py para ajustar o LLM pré-treinado no conjunto de dados fornecido.Avalie e salve o modelo :