Análise de texto legal
Uma lista de recursos, métodos e ferramentas selecionados dedicados à análise de texto legal.

Leia as diretrizes de contribuição antes de contribuir. Adicione um recurso aumentando uma solicitação de tração. Também buscamos discussão e proposta de novas idéias (incluindo seções de conteúdo adicionais) como questões.
Conteúdo
- Tarefas selecionadas e casos de uso
- Métodos
- Bibliotecas
- Conjuntos de dados e dados
- Grandes modelos de idiomas e GPT
- Anotação e esquemas de dados
- Ferramentas de anotação
- Software (interfaces)
- Grupos de pesquisa e laboratórios
- Tutoriais
Tarefas selecionadas e casos de uso
De volta ao topo
- Reconhecimento óptico de caracteres (encontre mais informações aqui)
- Pré-processamento do documento legal (encontre mais informações aqui)
- Segmentação de cláusula e detecção de limite de sentença
- Extração de informações e reconhecimento de entidade nomeado (encontre mais informações aqui)
- Classificação de normas legais
- Tradução da máquina
- Comparação de documentos e correspondência semântica
- Resumo do texto
- Mineração de argumentos
- Resposta de perguntas
- Previsão de resultados de casos legais
- Monitoramento legal e regulatório
- Previsão de criticidade legal
- Geração de visão do tribunal
- Extração de referência e Coreferência
- Montagem de documentos e geração
- Transcrição de voz
- Detecção de anomalia
- Anonimato de dados
- Verificação de consistência
- Processamento de linguagem natural no domínio legal
Métodos
De volta ao topo
- Progresso da PNL
- Visualizações de texto
- Reconhecimento óptico de caracteres
- Métodos baseados em regras para PNL, Apache Ruta, Jape Grammar
- NLP estatístico
- Estruturas de aprendizado de máquina
- Redes neurais e aprendizado profundo para o tutorial de PNL
- Adaptação de domínio (por exemplo, artigo de pesquisa)
Bibliotecas
De volta ao topo
- Spacy - Processamento de linguagem natural de resistência industrial
- Scikit - Machine Learning in Python
- NLTK - Kit de ferramentas de linguagem natural
- Apache Uima
- Portão - Arquitetura Geral para Engenharia de Texto
- Abraçando o rosto - mais de 1000 modelos de transformador/incorporação pré -treinados para o domínio legal
- Modelo alemão Bert: DeepSet AI
- Flair - SOTA NLP (incl. Dados biomédicos e legais)
- Blackstone - Reconhecimento legal de entidade e categorizador de texto
- Detecção de referência legal - pesquisa neo
- Detecção de referência legal - dados legais abertos
- Haystack - Transformers em escala para resposta a perguntas e pesquisa neural
- Detecção de limites da frase (Casaw dos EUA)
- Estudos jurídicos quantitativos
- Citeurl - Uma ferramenta extensível para detectar e hiperlink citações legais
- LEXNLP - Biblioteca Python NLP para análise de texto legal
- Extrator de jurisprudência holandesa - funções para obter dados publicados de jurisprudência holandesa (RECHTSPRAAK) e metadados disponíveis associados aos casos
- Explorador de jurisprudência de caso - Materiais para a construção de uma plataforma de software de análise de rede para analisar decisões judiciais holandesas e europeias
Conjuntos de dados e dados
De volta ao topo
- Conjuntos de dados de NLP
- Um conjunto de dados de 800 GB de texto diversificado para modelagem de idiomas
- Pesquisa de Meta: Pesquisa do conjunto de dados do Google
- OpenLegaldata
- IR ad-hoc ranking benchmarks, conjuntos de dados de treinamento, etc.
- Bélgica: Belgian Statutário Artigo Recuperação do conjunto de dados (BSARD), incluindo código
- NLP alemão incrível
- Conjunto de dados alemão para recuperação de informações legais (Gerdalir)
- Reconhecimento de entidades legais
- Resumo do texto legal
- Tradução de texto legal
- Classificação legal de documentos
- Classificação de sentenças legais (alemão)
- 100 mil decisões judiciais alemãs
- Conjuntos de dados de papel legal
- Lexglue: um conjunto de dados de referência para o entendimento da linguagem legal em inglês
- Lextreme: um benchmark multilíngue e multitarefa para o domínio legal
- Multilegalpile: um corpus jurídico multilíngue de 689 GB
- MultilegalsBD: um conjunto de dados multilíngue legal de detecção de limite de sentença legal
- Multilegalneg
- Dados legais impressionantes
- Alemanha: Gesetze IM Internet, Rechtsprechung IM Internet, Verwaltungsvorschriften IM Internet
- Alemanha: decisões do tribunal anotadas (estilo de julgamento)
- Alemanha: conjunto de dados de tribunais federais alemães
- Alemanha: conjunto de dados quantitativos de audiências judiciais de asilo em tribunais administrativos alemães. Asyfair
- Alemanha: respondendo a perguntas legais de leigos no Sistema de Direito Civil Alemão: dados e código. Papel EACL 2024
- Alemanha: Detectando cláusulas vazias em contratos de consumo padrão alemão
- Alemanha: Aktenzeichen der BundesRepublik Deutschland (AZ-BRD)
- Alemanha: Corpus des Deutschen Bundesrechts (C-DBR)
- Alemanha: Corpus der Ontscheidungen des Bundesverfassungsgerichts (CE-BVERFG)
- Alemanha: corpus der amtlichen entrentscheidungssammlung des bundesverfassungsgerichts (c-bverfge)
- Alemanha: Corona-Rechtsprechung des Bundesverfassungsgerichts (BVERFG-CORONA)
- Alemanha: Corpus der Ontscheidungen des Bundesverwaltungsgerichts (CE-BVERWG)
- Alemanha: Corpus der Ontscheidungen des Bundesarbeitsgerichts (CE-BAG)
- Alemanha: Corpus der Ontscheidungen des Bundespatentgerichts (CE-BPATG)
- Alemanha: Corpus der Ontscheidungen des Bundesgerichtshofs (CE-BGH)
- Alemanha: presidentes e vice-presidentes dos tribunais federais da Alemanha (PVP-FCG)
- Alemanha: Stoppwörter der Deutschen Rechtssprache (SW-de-Rs)
- França: o conjunto de dados da estrutura de decisão do tribunal francês - FCD12K
- Suíça: legislação suíça corpus francês e alemão
- Suíça: conjunto de dados federal da Suprema Corte da Suíça (SCD)
- Suíça: previsão de julgamento suíço
- Suíça: Previsão do Julgamento Suíço XL
- Suíça: previsão da criticidade suíça
- Suíça: Previsão da área de direito suíço
- Suíça: decisões líderes suíças
- Suíça: legislação suíça
- Suíça: decisões suíças
- Suíça: resumo da decisão líder suíça
- Suíça: extração de citação suíça
- Suíça: geração de visão da corte suíça
- Suíça: Recuperação da informação Swiss Doc2Doc
- Turquia: Previsão de resultados nos tribunais superiores da Turquia
- Índia: documentos legais indianos corpus para previsão e explicação do julgamento judicial
- ECTHR: Decisões judiciais do Tribunal Europeu de Direitos Humanos
- ECTHR: LACOUR!: Habilitando pesquisas sobre argumentação em audiências do Tribunal Europeu de Direitos Humanos
- ECTHR: Corpus de mineração de argumentos
- Lei da UE (Eurlex R Package), corpus digital do Parlamento Europeu (DCEP)
- Recuperação de informações de conformidade regulatória da UE
- UE Lextreme
- Israel: o banco de dados da Suprema Corte israelense
- Canadá: leis e regulamentos federais (ftp://205.193.86.89/)
- Reino Unido: Relatórios de Direito do Reino Unido e Pesquisa em Direito Caixa
- Reino Unido: Cambridge Law Corpus
- Austrália: corpus jurídico australiano aberto - o primeiro e único corpus aberto de documentos legislativos e judiciais australianos de documentos legislativos australianos
- Conjunto de dados de interpretação da lei estatutária dos EUA
- Conjunto de dados de detecção de limites da sentença de cena dos EUA
- Us Casaw funcional e emitir conjunto de conjuntos de segmentação específica
- Detecção de polaridade dos EUA
- Projeto de Acesso à Casa dos EUA
- US Federal Caselaw dos EUA através do CourtListener Recap by the Free.law Project, inclui uma API
- Banco de dados da Suprema Corte dos EUA
- Câmara dos Representantes dos EUA Escritório de Administração de Revisão da Lei
- Conselho dos EUA de Recursos de Veteranos (BVA) DataSet de Previsão de Citação e Código
- Visão geral dos conjuntos de dados de ciências políticas: Poldata
- Direito Internacional: Texto de Acordos Comerciais (TOTA)
- Direito Internacional: Corpus de Decisões: Tribunal Internacional de Justiça (CD-ICJ)
- Direito Internacional: Corpus de Decisões: Tribunal Permanente de Justiça Internacional (CD-PCIJ)
- Nações Unidas: Debate Geral das Nações Unidas Corpus, Nações Unidas Parallel Corpus
- Contrato Compreendendo o conjunto de dados do Atticus pelo Projeto Atticus: um corpus de mais de 13.000 rótulos em 510 contratos legais comerciais com ricas anotações de especialistas.
- DataSet de fusões e aquisições da KIRA Systems da KIRA Systems: Um conjunto de dados de uso não comercial, compreendendo 4.400 documentos e etiquetas para 50 conceitos legais na configuração de due diligence de fusões e aquisição.
- Índia: conjunto de dados ILSI para identificação de estatuto legal
- Índia: conjunto de dados para segmentação semântica / rotulagem de função retórica
- Índia: resumo com vários conjuntos de dados
- Índia: Buildnyai
- Escritório Europeu de Patente - Dados de texto completo para análise de texto
- Patentes do Google conjuntos de dados públicos: conectando dados públicos, pagos e de patentes privados
- Informações sobre Patentes Mundiais (WPI) - Documenta domínios técnicos das principais autoridades de patentes
- Corpus de transcrição do genocídio (GTC)
Grandes modelos de idiomas e GPT
De volta ao topo
- Veja repositório dedicado em grandes modelos de linguagem (LLMS) e transformadores generativos pré-treinados (GPTs) para Legal
- Chatgpt no OpenAi: Exemplos, Documentação, Preços, Chatgpt de Ajuste Fina
- Esboço resumindo o chatgpt
- Modelos de idiomas grandes: Relatório por Ki Bundesverband
- Modelos de idiomas grandes: Relatório de rosto de abraço
- Relatório sobre limitações de chatgpt
- GPT faz o exame de barra
- Modelos de idiomas legais
Anotação e esquemas de dados
De volta ao topo
- Diretrizes de anotação para reconhecimento de entidades legais (Alemanha)
- Tipos semânticos de normas legais
- Diretrizes de anotação para detecção de limites de sentença na CASELAW (EUA)
- Diretrizes de anotação para o valor da sentença na interpretação estatutária (EUA)
- Sali: padrões modernos da indústria jurídica
Ferramentas de anotação
De volta ao topo
- Anotação de dados impressionante
- Prodígio
- Doccano
- Pirralho
Software (interfaces)
De volta ao topo
- Explorador de jurisprudência - plataforma de software de análise de rede para analisar decisões judiciais holandesas e europeias - Guia do usuário
- Banco de dados eletrônico sobre tratados de investimento (edição)
- GraphDoc - Interface gráfica amigável que permite a criação de árvores de decisão - CodeBase
- GESP - Faça o download de todas as decisões judiciais alemãs disponíveis ao público diretamente do seu terminal
Grupos de pesquisa, laboratórios e comunidades
De volta ao topo
- Universidade de Stanford - Codex: O Stanford Center for Legal Informatics
- Universidade Técnica de Munique
- Universidade Técnica de Munique - Grupo de Tecnologia Jurídica
- Centro de Bucerius na profissão de advogado
- Faculdade de Direito de Suffolk - Laboratório de Inovação e Tecnologia Legal (LIT)
- Universidade de Ottawa - Laboratório de Tecnologia Jurídica
- Universidade de Viena - Departamento de Inovação e Digitalização em Direito
- Universidade de Amsterdã - Leibniz Center for Law
- Universidade de Helsinque - Labor de Pesquisa LegalTech
- HOFSTRA University - Law, Logic & Technology Research Laboratory
- Estudos jurídicos computacionais
- Cirsfid-AI-Universidade de Bolonha
- IAAIL - Associação Internacional de IA e Direito
- ASAIL - Detecção automatizada, extração e análise de informações semânticas em textos legais
- Workshop sobre processamento de linguagem jurídica natural: papéis, modelos, conjuntos de dados e eventos relacionados
- AI e lei chinesas (cail)
- Universidade de Copenhagen, ICOURTS, Centro de Excelência da Fundação Nacional de Pesquisa Dinamarquês para tribunais internacionais
- Law e Tech Lab
Tutoriais
De volta ao topo
- Monkey Learn - Análise de texto
- Usando a PNL para entender as leis
- Representação de documentos para textos legais
- Ciência de Dados para Advogados - Recursos de Aprendizagem
- Codendo para advogados (descontinuados)
- Abordagens de PNL personalizadas para anonimato de dados
- Extração de informações em documentos legais
- PNL legal: classificação de sentenças e IA explicável
- Glossário legal da IA
- Centro de Aprendizagem da IA Legal
Créditos
De volta ao topo
Muito obrigado aos nossos colaboradores e muito mais.
Este trabalho é licenciado sob uma licença internacional Creative Commons Attribution-Sharealike 4.0.