이것은 프로젝트의 기본 코드 기반입니다.
Lawma : 법적 작업을위한 특정 특성의 힘. Ricardo Dominguez-Olmedo와 Vedant Nanda, Rediet Abebe, Stefan Bechtold와 Christoph Engel과 Jens Frankenreiter, Krishna Gummadi와 Moritz Hardt와 Michael Livermore. 2024
Lawma 8B 및 Lawma 70B는 대법원 및 Songer 항소 데이터베이스에서 파생 된 260 개의 법적 분류 작업에 대해 미세 조정 된 언어 모델입니다. LAWMA 모델은 이러한 법적 분류 작업의 95%에 대해 GPT-4를 평균 17 개 이상의 정확도 포인트로 능가합니다.
Lawma 모델은 무엇입니까? 모델이 미세 조정 된 법적 분류 작업에 대해서만 LawMA 모델을 사용하는 것이 좋습니다. 우리 논문의 주요 테이크 아웃은 모델을 전문화하면 성능이 크게 향상된다는 것입니다. 따라서, 우리는 실무자들이 모델이 사용될 실제 작업에 대해 Lawma를 더 미세 조정하도록 강력히 권장합니다. 상대적으로 적은 사례 (예, 수십 또는 수백)는 이미 성능이 큰 이익을 얻을 수 있습니다.
이러한 법적 분류 작업은 왜인가? 법적 분류 작업을 공부 해야하는 우리의 이유는 기술적이고 실질적입니다. 기술 머신 러닝 관점에서 볼 때 이러한 작업은 최상의 모델조차도 개선의 여지를 남기는 매우 사소한 분류 문제를 제공합니다. 실질적인 법적 관점에서 효율적인 솔루션에 이르기까지 이러한 분류 문제에 이르기까지 법률 연구에서 풍부하고 중요한 응용이 있습니다. 우리는 이러한 분류 작업에서 HF 모델의 성능을 평가하기위한 코드를 제공합니다.
260 개의 법적 작업 각각에 대한 언어 모델을 평가하려면 평가 폴더, 특히 HF_EVAL.PY를 참조하십시오. 먼저 여기에서 작업 파일을 다운로드하거나 data_generation 폴더의 지침을 따라 직접 생성해야합니다. 다양한 언어 모델을 평가했습니다.
| 모델 | 모든 작업 | 대법원 과제 | 항소 법원 과제 |
|---|---|---|---|
| Lawma 70b | 81.9 | 84.1 | 81.5 |
| Lawma 8b | 80.3 | 82.4 | 79.9 |
| GPT4 | 62.9 | 59.8 | 63.4 |
| 라마 3 70b inst | 58.4 | 47.1 | 60.3 |
| 믹스 트랄 8x7b inst | 43.2 | 24.4 | 46.4 |
| 라마 3 8b inst | 42.6 | 32.8 | 44.2 |
| 다수 분류기 | 41.7 | 31.5 | 43.5 |
| Mistral 7b Inst | 39.9 | 19.5 | 43.4 |
| 사울 7b inst | 34.4 | 20.2 | 36.8 |
| legalbert | 24.6 | 13.6 | 26.4 |
LAWMA 모델은 테스트 된 다른 모든 모델, 특히 GPT-4를 실질적으로 능가합니다. Lawma 70b는 일반적으로 Lawma 8b보다 성능이 우수하지만 성능의 차이는 일반적으로 다소 작습니다. 따라서 실무자들은 모델 성능 측면에서 비용이 거의없이 저렴한 추론 및 미세 조정에 Lawma 8B를 사용하는 것을 선호 할 수 있습니다.
참고 : 260 개의 분류 작업에서 모델을 평가하는 것은 합리적으로 집중적입니다. 그러나 언어 모델 벤치마킹의 목적 상 우리는 대부분 집계 성능에 관심이있을 수 있습니다. 우리는 현재 작업 당 제한된 수의 예제 만 고려하여 집계 평가를 덜 집약적으로 만들기 위해 노력하고 있습니다.
우리는 Axolotl 라이브러리를 사용하여 Lawma를 미세 조정합니다. Lawma를 미세 조정하는 데 사용한 교육 스크립트 및 구성 파일에 대해서는 미세 조정 폴더의 readme를 참조하십시오.
법적 분류 작업 데이터 세트를 미세 조정하려면 config.yml 파일에 간단히 표시하십시오.
datasets :
- path : ricdomolm/lawma-all-tasks
type : alpaca그리고 평소와 같이 axolotl을 사용하여 훈련하십시오
accelerate launch -m axolotl.cli.train config.yml7xH100 GPU의 미세 조정 LAWMA 8B는 총 600 H100 시간 (3 개의 epoch)을 필요로하는 반면, 8 gpus의 8 H100 노드에서 미세 조정 LAWMA 70B는 각각 1600 h100 시간 (1 개의 에포크)이 필요했습니다. 우리는 추가 시대가 평균 작업 성능을 상하게한다는 것을 알게되었습니다.
논문의 결과를 재현하려면 다음 단계를 수행하십시오.
추가 문서는 하위 디렉토리의 readme.md 파일을 참조하십시오.
다음과 같이 인용하십시오.
@misc{dominguezolmedo2024lawmapowerspecializationlegal,
title={Lawma: The Power of Specialization for Legal Tasks},
author={Ricardo Dominguez-Olmedo and Vedant Nanda and Rediet Abebe and Stefan Bechtold and Christoph Engel and Jens Frankenreiter and Krishna Gummadi and Moritz Hardt and Michael Livermore},
year={2024},
eprint={2407.16615},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2407.16615},
}