Análisis de texto legal
Una lista de recursos, métodos y herramientas seleccionados dedicados a análisis de texto legal.

Lea las pautas de contribución antes de contribuir. Agregue un recurso planteando una solicitud de extracción. También buscamos discusión y propuesta de nuevas ideas (incluidas secciones de contenido adicionales) como cuestiones.
Contenido
- Tareas y casos de uso seleccionados
- Métodos
- Bibliotecas
- Conjuntos de datos y datos
- Modelos de idiomas grandes y GPT
- Esquemas de anotación y datos
- Herramientas de anotación
- Software (interfaces)
- Grupos de investigación y laboratorios
- Tutoriales
Tareas y casos de uso seleccionados
Volver arriba
- Reconocimiento de caracteres ópticos (encuentre más información aquí)
- Preprocesamiento de documentos legales (encuentre más información aquí)
- Segmentación de la cláusula y detección de límites de oración
- Extracción de información y reconocimiento de entidad nombrado (encuentre más información aquí)
- Clasificación de normas legales
- Traducción automática
- Comparación de documentos y coincidencia semántica
- Resumen de texto
- Argumento de minería
- Respuesta de preguntas
- Predicción de resultados de casos legales
- Monitoreo legal y regulatorio
- Predicción de criticidad legal
- Generación de la vista de la corte
- Extracción de referencia y coreferencia
- Documento de ensamblaje y generación
- Transcripción de voz
- Detección de anomalías
- Anonimización de datos
- Verificación de consistencia
- Procesamiento del lenguaje natural en el dominio legal
Métodos
Volver arriba
- Progreso de PNL
- Visualizaciones de texto
- Reconocimiento óptico de caracteres
- Métodos basados en reglas para PNL, Apache Ruta, Jape Grammar
- PNL estadística
- Marcos de aprendizaje automático
- Redes neuronales y aprendizaje profundo para el tutorial de PNL
- Adaptación del dominio (por ejemplo, trabajo de investigación)
Bibliotecas
Volver arriba
- Spacy - Procesamiento del lenguaje natural de fuerza industrial
- Scikit - Aprendizaje automático en Python
- NLTK - Kit de herramientas de lenguaje natural
- Apache uima
- GATE - Arquitectura general para ingeniería de texto
- Cara de abrazo: más de 1000 modelos de incrustación/incrustación previamente capacitados para el dominio legal
- Modelo Bert alemán: DeepSet Ai
- Flair - SOTA NLP (incluido datos biomédicos y legales)
- Blackstone - Categorizador legal de reconocimiento de entidad y texto
- Detección de referencia legal - Search Neo
- Detección de referencia legal: datos legales abiertos
- Haystack - Transformers a escala para la respuesta de preguntas y la búsqueda neuronal
- Detección de límites de oración (Casilla de EE. UU.)
- Estudios legales cuantitativos
- CiteURL: una herramienta extensible para detectar e hipervínculo de citas legales
- LEXNLP - Biblioteca Python NLP para análisis de texto legal
- Extractor de jurisprudencia holandesa: funciones para obtener datos de jurisprudencia holandesa publicados (Rechtspraak) y metadatos disponibles asociados a los casos
- Explorador de jurisprudencia de caso - Materiales para construir una plataforma de software de análisis de red para analizar las decisiones de los tribunales holandeses y europeos
Conjuntos de datos y datos
Volver arriba
- Conjuntos de datos NLP
- Un conjunto de datos de 800 GB de texto diverso para modelado de idiomas
- Meta Búsqueda: Búsqueda de conjuntos de datos de Google
- Openlegaldata
- Puntos de referencia de clasificación ad-hoc IR, conjuntos de datos de capacitación, etc.
- Bélgica: conjunto de datos de recuperación de artículos estatutarios belgas (BSARD), incluido el código
- Impresionante PNL alemán
- Conjunto de datos alemán para recuperación de información legal (Gerdalir)
- Reconocimiento de entidades legales
- Resumen de texto legal
- Traducción de texto legal
- Clasificación de documentos legales
- Clasificación de sentencias legales (alemán)
- Decisiones judiciales alemanas de 100k
- Conjuntos de datos de papel legal
- LexGlue: un conjunto de datos de referencia para la comprensión del lenguaje legal en inglés
- Lextreme: un punto de referencia multilingüe y multitarea para el dominio legal
- Multilegalpile: un corpus legal multilingüe de 689GB
- Multilegalsbd: un conjunto de datos de detección de límites de oración legal multilingüe
- Multilegalneg
- Datos legales impresionantes
- Alemania: Gesetze im Internet, Rechtsprechung im Internet, Verwaltungsvorschriften IM Internet
- Alemania: decisiones judiciales anotadas (estilo de juicio)
- Alemania: conjunto de datos de tribunales federales alemanes
- Alemania: conjunto de datos cuantitativos de audiencias de la corte de asilo en los tribunales administrativos alemanes. Asyfair
- Alemania: Respondiendo preguntas legales de laicos en el sistema de derecho civil alemán: datos y código. Papel EACL 2024
- Alemania: Detección de cláusulas vacías en los contratos de consumo de forma estándar alemana
- Alemania: Aktenzeichen der Bundesrepublik Deutschland (AZ-BRD)
- Alemania: Corpus des deutschen Bundesrechts (C-DBR)
- Alemania: Corpus der entscheidungen des Bundesverfassungsgerichts (CE-Bverfg)
- Alemania: Corpus der Amtlichen entscheidungssammlung des Bundesverfassungsgerichts (C-Bverfge)
- Alemania: Corona-Rechtsprechung des Bundesverfassungsgerichts (Bverfg-Corona)
- Alemania: Corpus der entscheidungen des Bundesverwaltungsgerichts (CE-BverWG)
- Alemania: Corpus der entscheidungen des Bundesarbeitsgerichts (CE-Bag)
- Alemania: Corpus der entscheidungen des BundespatentGerichts (CE-BPATG)
- Alemania: Corpus der entscheidungen des Bundesgerichtshofs (CE-BGH)
- Alemania: Presidentes y Vicepresidentes de los Tribunales Federales de Alemania (PVP-FCG)
- Alemania: Stopwörter der Deutschen Rechtssprache (SW-de-RS)
- Francia: el conjunto de datos de la estructura de decisión de la corte francesa - FCD12K
- Suiza: Corpus de Legislación Suiza francesa y alemana
- Suiza: conjunto de datos de la Corte Suprema Swiss Federal (SCD)
- Suiza: predicción del juicio suizo
- Suiza: Predicción de juicio suizo XL
- Suiza: predicción de criticidad suiza
- Suiza: predicción del área de la ley suiza
- Suiza: decisiones principales suizas
- Suiza: legislación suiza
- Suiza: decisiones suizas
- Suiza: resumen de decisión suiza líder
- Suiza: extracción de citas suizas
- Suiza: generación de vista de la corte suiza
- Suiza: recuperación de información suiza DOC2DOC
- Turquía: predicción de resultados en los tribunales superiores de Turquía
- India: Corpus de documentos legales indios para la predicción y explicación de la sentencia judicial
- TEDH: decisiones judiciales del Tribunal Europeo de Derechos Humanos
- ECTHR: LACOUR!: Habilitando la investigación sobre la argumentación en las audiencias del Tribunal Europeo de Derechos Humanos
- TEDH: Corpus de minería de argumentos
- Ley de la UE (paquete Eurlex R), Corpus digital del Parlamento Europeo (DCEP)
- Recuperación de información de cumplimiento regulatorio de la UE
- Lextreme de la UE
- Israel: la base de datos de la Corte Suprema israelí
- Canadá: Leyes y regulaciones federales (FTP://205.193.86.89/)
- Reino Unido: Informes de leyes del Reino Unido y búsqueda de jurisprudencia
- Reino Unido: Cambridge Law Corpus
- Australia: Open Australian Legal Corpus: el primer y único corpus abierto multijurisdiccional de documentos legislativos y judiciales australianos
- Conjunto de datos de interpretación de la ley legal de los Estados Unidos
- Conjunto de datos de detección de límites de frase de casos de EE. UU.
- Conjunto de datos de segmentación de casos de casos de EE. UU.
- Detección de polaridad de oración de casos de EE. UU.
- Proyecto de acceso a casas de casos de EE. UU.
- Casilla federal de EE. UU. A través de Courtlistener Resumen por el proyecto Free.Law, incluye una API
- Base de datos de la Corte Suprema de los Estados Unidos
- Oficina de la Cámara de Representantes de los Estados Unidos del abogado de revisión de la ley
- Consejo y código de predicción de la Junta de Veteranos de los Estados Unidos (BVA) Conjunto de datos y código de predicción de citas
- Descripción general de los conjuntos de datos de ciencias políticas: Poldata
- Derecho internacional: texto de acuerdos comerciales (TOTA)
- Derecho internacional: Corpus of Decisions: Tribunal Internacional de Justicia (CD-ICJ)
- Derecho internacional: Corpus of Decisions: Tribunal Permanente de Justicia Internacional (CD-PCIJ)
- Naciones Unidas: Corpus de debate general de las Naciones Unidas, Corpus Paralelo de las Naciones Unidas
- Contratación de la comprensión del conjunto de datos Atticus por el Proyecto Atticus: un corpus de más de 13,000 etiquetas en 510 contratos legales comerciales con ricas anotaciones de expertos.
- KIRA Systems M&A DataSet de Kira Systems: un conjunto de datos de uso no comercial que comprende 4,400 documentos y etiquetas para 50 conceptos legales en la configuración de diligencia debida de M&A.
- India: conjunto de datos ILSI para identificación de estatutos legales
- India: conjunto de datos para la segmentación semántica / etiquetado de rol retórico
- India: resumen con múltiples conjuntos de datos
- India: Buildyai
- Oficina Europea de Patentes - Datos de texto completo EP para análisis de texto
- Patentes de Google Patentes de datos públicos: Conectando datos de patentes públicas, pagas y privadas
- Información mundial de patentes (WPI): documentos de dominios técnicos de las principales autoridades de patentes
- Corpus de transcripción de genocidio (GTC)
Modelos de idiomas grandes y GPT
Volver arriba
- Ver repositorio dedicado sobre modelos de lenguaje grande (LLMS) y transformadores generativos previamente capacitados (GPT) para legal
- Chatgpt en OpenAI: ejemplos, documentación, precios, chatgpt de ajuste fino
- Sketch resumiendo chatgpt
- Modelos de idiomas grandes: Informe de KI Bundesverband
- Modelos de idiomas grandes: informe de cara de abrazo
- Informe sobre las limitaciones de chatgpt
- GPT toma el examen de la barra
- Modelos de idiomas legales
Esquemas de anotación y datos
Volver arriba
- Pautas de anotación para el reconocimiento de entidades legales (Alemania)
- Tipos semánticos de normas legales
- Pautas de anotación para la detección de límites de oración en casos (EE. UU.)
- Pautas de anotación para el valor de la oración en la interpretación legal (EE. UU.)
- Sali: estándares modernos de la industria legal
Herramientas de anotación
Volver arriba
- Anotación de datos impresionante
- Prodigio
- Doccano
- Palo de golf
Software (interfaces)
Volver arriba
- Explorador de leyes de casos - Plataforma de software de análisis de red para analizar las decisiones del tribunal holandés y europeo - Guía del usuario
- Base de datos electrónica en tratados de inversión (editar)
- GraphDoc - Interfaz gráfica fácil de usar que permite la construcción de árboles de decisión - CodeBase
- GESP - Descargue todas las decisiones judiciales alemanas disponibles públicamente directamente desde su terminal
Grupos de investigación, laboratorios y comunidades
Volver arriba
- Universidad de Stanford - Codex: El Centro de Informática Legal de Stanford
- Universidad Técnica de Munich
- Universidad Técnica de Munich - Legal Tech Group
- Centro de Bucerius en la profesión legal
- Laboratorio de la Facultad de Derecho de Suffolk - Laboratorio de innovación y tecnología legal (LIT)
- Universidad de Ottawa - Laboratorio de tecnología legal
- Universidad de Viena - Departamento de Innovación y Digitalización en Derecho
- Universidad de Amsterdam - Centro de Derecho Leibniz
- Universidad de Helsinki - Labor de investigación Legaltech
- Universidad de Hofstra - Laboratorio de investigación de la ley, lógica y tecnología
- Estudios legales computacionales
- CIRSFID-AI-Universidad de Bolonia
- IAAIL - Asociación Internacional para la IA y el Derecho
- ASAIL - Detección automatizada, extracción y análisis de información semántica en textos legales
- Taller sobre procesamiento de lenguaje legal natural: documentos, modelos, conjuntos de datos y eventos relacionados
- AI y ley china (Cail)
- Universidad de Copenhague, Itourts, Centro de Excelencia de la Fundación Nacional de Investigación Danés para los tribunales internacionales
- Maastricht Law and Tech Lab
Tutoriales
Volver arriba
- Monkey Learn - Análisis de texto
- Uso de PNL para comprender las leyes
- Representación de documentos para textos legales
- Ciencia de datos para abogados - Recursos de aprendizaje
- Codificación para abogados (descontinuado)
- Enfoques de PNL personalizados para el anonimato de datos
- Extracción de información en documentos legales
- PNL legal: clasificación de oraciones y IA explicable
- Glosario legal de IA
- Centro de aprendizaje de IA legal
Créditos
Volver arriba
Muchas gracias a nuestros contribuyentes y muchos más.
Este trabajo tiene licencia bajo una licencia internacional de atribución de los comunes y sharealike 4.0.