Esta es la base de código principal para el proyecto:
Lawma: el poder de la especización para las tareas legales. Ricardo Dominguez-Olmedo y Vedant Nanda y Rediet Abebe y Stefan Bechtold y Christoph Engel y Jens Frankenreiter y Krishna Gummadi y Moritz Hardt y Michael Livermore. 2024
Lawma 8b y el Lawma 70B son modelos de idiomas ajustados en 260 tareas de clasificación legal derivadas de la Corte Suprema y bases de datos de la Corte de Apelaciones de Songer. Los modelos de Lawma superan a GPT-4 en el 95% de estas tareas de clasificación legal, en promedio en más de 17 puntos de precisión.
¿Para qué son útiles los modelos de Lawma? Recomendamos usar los modelos de Lawma solo para las tareas de clasificación legal en las que los modelos fueron ajustados. La principal comida para llevar de nuestro artículo es que los modelos especializados conducen a grandes mejoras en el rendimiento. Por lo tanto, recomendamos encarecidamente a los profesionales que aún ajusten a la legislación en las tareas reales para las que se utilizarán los modelos. Relativamente pocos ejemplos, decenas o cientos, ya pueden conducir a grandes ganancias en el rendimiento.
¿Por qué estas tareas de clasificación legal? Nuestras razones para estudiar tareas de clasificación legal son técnicas y sustantivas. Desde una perspectiva técnica de aprendizaje automático, estas tareas proporcionan problemas de clasificación altamente no triviales en los que incluso los mejores modelos dejan mucho espacio para mejorar. Desde una perspectiva legal sustantiva, las soluciones eficientes a tales problemas de clasificación tienen aplicaciones ricas e importantes en la investigación legal. Proporcionamos código para evaluar el rendimiento de los modelos HF en estas tareas de clasificación.
Para evaluar los modelos de idiomas en cada una de las 260 tareas legales, consulte la carpeta de evaluación y, en particular, hf_eval.py. Primero debe descargar los archivos de tareas desde aquí, o generarlos usted mismo siguiendo las instrucciones en la carpeta data_generation. Evaluamos una variedad de modelos de idiomas:
| Modelo | Todas las tareas | Tareas de la Corte Suprema | Tribunal de Tareas del Tribunal de Apelaciones |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| GPT4 | 62.9 | 59.8 | 63.4 |
| Llama 3 70b instit | 58.4 | 47.1 | 60.3 |
| Mixtrral 8x7b instit | 43.2 | 24.4 | 46.4 |
| Llama 3 8B Inst | 42.6 | 32.8 | 44.2 |
| Clasificador mayoritario | 41.7 | 31.5 | 43.5 |
| Mistral 7B Inst | 39.9 | 19.5 | 43.4 |
| Saul 7b Inst | 34.4 | 20.2 | 36.8 |
| Legalbert | 24.6 | 13.6 | 26.4 |
Los modelos de Lawma superan sustancialmente a todos los demás modelos probados, y en particular GPT-4. Tenga en cuenta que, si bien el Lawma 70b generalmente supera a la LeyMa 8B, la diferencia en el rendimiento suele ser bastante pequeña. Por lo tanto, los profesionales pueden preferir utilizar el Lawma 8B para su inferencia y ajuste muy barato significativamente más barato, con poco costo en términos de rendimiento del modelo.
Nota: Evaluar modelos en las 260 tareas de clasificación es razonablemente calculador intensivo. Sin embargo, a los efectos de la evaluación comparativa del modelo de idioma, podemos estar principalmente interesados en el rendimiento agregado. Actualmente estamos trabajando en hacer que las evaluaciones agregadas sean menos intensivas en recursos al considerar solo un número limitado de ejemplos por tarea.
Afinitamos a Lawma usando la biblioteca Axolotl. Consulte el ReadMe en la carpeta de ajuste fino para los scripts de capacitación y los archivos de configuración que usamos para ajustar la LeyMa.
Para ajustar en nuestro conjunto de datos de tareas de clasificación legal, simplemente indique así en su archivo config.yml :
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpacay luego entrenar usando axolotl como de costumbre
accelerate launch -m axolotl.cli.train config.ymlLa legislación de ajuste 8B 8B en 7XH100 GPU requirió un total de 600 H100 horas (3 épocas), mientras que la Ley de ajuste fino 70B en 8 nodos H100 de 8 GPU, cada uno requirió alrededor de 1600 H100 horas (1 época). Encontramos que las épocas adicionales perjudican el rendimiento promedio de la tarea.
Para reproducir los resultados del documento, tome los siguientes pasos:
Consulte los archivos ReadMe.md en los subdirectorios para una documentación adicional.
Por favor cita como:
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}