Download detoxify - Download de código -fonte detoxify

? Desintoxicar

Classificação de comentários tóxicos com ⚡ Pytorch Lightning e? Transformadores

Exemplos de imagem

Notícias e atualizações

22-10-2021: Novo modelo multilíngue aprimorado e nomes de classe padronizados

Atualizado os pesos do modelo multilingual utilizados por desintoxicar com um modelo treinado nos dados traduzidos do segundo desafio do Jigsaw (bem como no 1º). Esse modelo também foi treinado para minimizar o viés e agora retorna as mesmas categorias que o modelo unbiased . Nova melhor pontuação da AUC no conjunto de testes: 92.11 (89,71 antes).
Todos os modelos de desintoxicar agora retornam nomes de classe consistentes (por exemplo, "identity_attack" substitui "identity_hate" no modelo original para corresponder às classes unbiased ).

03-09-2021: novo modelo imparcial aprimorado

Atualizou os pesos do modelo unbiased utilizados por desintoxicar com um modelo treinado nos dois conjuntos de dados dos 2 primeiros desafios do Jigsaw. Nova melhor pontuação no conjunto de testes: 93.74 (93,64 antes).

15-02-2021: Detoxify apresentado na Scientific American!

Nossa peça de opinião "A IA pode identificar conteúdo on -line tóxico?" agora está ao vivo em Scientific American

14-01-2021: Modelos leves

Adicionados modelos menores treinados com Albert para os modelos original e unbiased ! Pode acessar-os da mesma maneira com a desintoxica usando original-small unbiased-small como entradas. O original-small alcançou uma pontuação média da AUC de 98,28 (98,64 antes) e o unbiased-small alcançou uma pontuação final de 93,36 (93,64 antes).

Descrição

Modelos e codificação treinados para prever comentários tóxicos sobre 3 desafios de Jigsaw: classificação de comentários tóxicos, viés não intencional em comentários tóxicos, classificação multilíngue de comentários tóxicos.

Construído por Laura Hanu na UNITY, onde estamos trabalhando para interromper o conteúdo prejudicial on -line, interpretando o conteúdo visual no contexto.

Dependências:

Para inferência:
- ? Transformadores
- ⚡ Pytorch Lightning
Para o treinamento também precisará:
- Kaggle API (para baixar dados)

Desafio	Ano	Meta	Fonte de dados original	Desintoxicar o nome do modelo	Top Kaggle Liderboard Score %	Detoxify Score %
Desafio de Classificação de Comentários Tóxicos	2018	Construa um modelo de várias cabeças capazes de detectar diferentes tipos de toxicidade, como ameaças, obscenidade, insultos e ódio baseado em identidade.	Comentários da Wikipedia	`original`	98.86	98.64
Viés não intencional na classificação de toxicidade	2019	Construa um modelo que reconheça a toxicidade e minimize esse tipo de viés não intencional em relação às menções das identidades. Você usará um conjunto de dados rotulado para mencionar a identidade e otimizar uma métrica projetada para medir o viés não intencional.	Comentários civis	`unbiased`	94.73	93.74
Classificação multilíngue de comentários tóxicos multilíngues	2020	construir modelos multilíngues eficazes	Comentários da Wikipedia + Comentários Civis	`multilingual`	95.36	92.11

Também é digno de nota mencionar que as principais pontuações do LeadEarboard foram alcançadas usando conjuntos de modelos. O objetivo desta biblioteca era criar algo amigável e simples de usar.

Quebra multilíngue de linguagem de modelo

Subgrupo de idiomas	Tamanho do subgrupo	Subgrupo AUC Score %
? isto	8494	89.18
? fr	10920	89.61
? ru	10948	89.81
? pt	11012	91.00
? es	8438	92.74
? tr	14000	97.19

Limitações e considerações éticas

Se as palavras associadas ao juramento, insultos ou palavrões estiverem presentes em um comentário, é provável que seja classificado como tóxico, independentemente do tom ou da intenção do autor, por exemplo, humorístico/autodepreciativo. Isso poderia apresentar alguns preconceitos em relação a grupos minoritários já vulneráveis.

O uso pretendido desta biblioteca é para fins de pesquisa, ajustando finos em conjuntos de dados cuidadosamente construídos que refletem a demografia do mundo real e/ou para ajudar os moderadores de conteúdo a sinalizar mais rápido conteúdo prejudicial.

Alguns recursos úteis sobre o risco de diferentes preconceitos na toxicidade ou na detecção de discursos de ódio são:

O risco de viés racial na detecção de fala de ódio
Detecção automatizada de fala de ódio e o problema da linguagem ofensiva
Viés racial no discurso de ódio e conjuntos de dados de detecção de idiomas abusivos

Previsão rápida

O modelo multilingual foi treinado em 7 idiomas diferentes, por isso só deve ser testado: english , french , spanish , italian , portuguese , turkish ou russian .

 # install detoxify

pip install detoxify

 from detoxify import Detoxify

# each model takes in either a string or a list of strings

results = Detoxify ( 'original' ). predict ( 'example text' )

results = Detoxify ( 'unbiased' ). predict ([ 'example text 1' , 'example text 2' ])

results = Detoxify ( 'multilingual' ). predict ([ 'example text' , 'exemple de texte' , 'texto de ejemplo' , 'testo di esempio' , 'texto de exemplo' , 'örnek metin' , 'пример текста' ])

# to specify the device the model will be allocated on (defaults to cpu), accepts any torch.device input

model = Detoxify ( 'original' , device = 'cuda' )

# optional to display results nicely (will need to pip install pandas)

import pandas as pd

print ( pd . DataFrame ( results , index = input_text ). round ( 5 ))

Para mais detalhes, verifique a seção de previsão.

Rótulos

Todos os desafios têm um rótulo de toxicidade. Os rótulos de toxicidade representam as classificações agregadas de até 10 anotadores de acordo com o seguinte esquema:

Muito tóxico (um comentário muito odioso, agressivo ou desrespeitoso que é muito provável que você deixe uma discussão ou desista de compartilhar sua perspectiva)
Tóxico (um comentário rude, desrespeitoso ou irracional que é provável que você deixe uma discussão ou desista de compartilhar sua perspectiva)
Difícil dizer
Não tóxico

Mais informações sobre o esquema de rotulagem podem ser encontradas aqui.

Desafio de Classificação de Comentários Tóxicos

Este desafio inclui os seguintes rótulos:

toxic
severe_toxic
obscene
threat
insult
identity_hate

Viés não intencional na classificação de toxicidade

Esse desafio tem 2 tipos de rótulos: os principais rótulos de toxicidade e alguns rótulos adicionais de identidade que representam as identidades mencionadas nos comentários.

Somente identidades com mais de 500 exemplos no conjunto de testes (público e privado combinado) são incluídos durante o treinamento como rótulos adicionais e no cálculo da avaliação.

toxicity
severe_toxicity
obscene
threat
insult
identity_attack
sexual_explicit

Etiquetas de identidade usadas:

male
female
homosexual_gay_or_lesbian
christian
jewish
muslim
black
white
psychiatric_or_mental_illness

Uma lista completa de todos os rótulos de identidade disponíveis pode ser encontrada aqui.

Classificação multilíngue de comentários tóxicos multilíngues

Como esse desafio combina os dados dos 2 desafios anteriores, inclui todos os rótulos de cima, no entanto, a avaliação final está apenas em:

toxicity

Como correr

Primeiro, instale dependências

 # clone project

git clone https://github.com/unitaryai/detoxify

# create virtual env

python3 -m venv toxic-env
source toxic-env/bin/activate

# install project
pip install -e detoxify

# or for training
pip install -e ' detoxify[dev] '

cd detoxify

Previsão

Resumo dos modelos treinados:

Nome do modelo	Tipo de transformador	Dados de
`original`	`bert-base-uncased`	Desafio de Classificação de Comentários Tóxicos
`unbiased`	`roberta-base`	Viés não intencional na classificação de toxicidade
`multilingual`	`xlm-roberta-base`	Classificação multilíngue de comentários tóxicos

Para uma previsão rápida, pode executar o script de exemplo em um comentário diretamente ou de um TXT contendo uma lista de comentários.

 # load model via torch.hub

python run_prediction.py --input ' example ' --model_name original

# load model from from checkpoint path

python run_prediction.py --input ' example ' --from_ckpt_path model_path

# save results to a .csv file

python run_prediction.py --input test_set.txt --model_name original --save_to results.csv

# to see usage

python run_prediction.py --help

Os pontos de verificação podem ser baixados da versão mais recente ou pela API do Pytorch Hub com os seguintes nomes:

toxic_bert
unbiased_toxic_roberta
multilingual_toxic_xlm_r

model = torch.hub.load( ' unitaryai/detoxify ' , ' toxic_bert ' )

Importar desintoxicar em Python:

 from detoxify import Detoxify

results = Detoxify ( 'original' ). predict ( 'some text' )

results = Detoxify ( 'unbiased' ). predict ([ 'example text 1' , 'example text 2' ])

results = Detoxify ( 'multilingual' ). predict ([ 'example text' , 'exemple de texte' , 'texto de ejemplo' , 'testo di esempio' , 'texto de exemplo' , 'örnek metin' , 'пример текста' ])

# to display results nicely

import pandas as pd

print ( pd . DataFrame ( results , index = input_text ). round ( 5 ))

Treinamento

Se você ainda não possui uma conta de kaggle:

Você precisa criar um para poder baixar os dados
Vá para minha conta e clique em Create New API Token - Isso vai baixar um arquivo kaggle.json
Verifique se este arquivo está localizado em ~/.Kaggle

 # create data directory

mkdir jigsaw_data
cd jigsaw_data

# download data

kaggle competitions download -c jigsaw-toxic-comment-classification-challenge
unzip jigsaw-toxic-comment-classification-challenge.zip -d jigsaw-toxic-comment-classification-challenge
find jigsaw-toxic-comment-classification-challenge -name ' *.csv.zip ' | xargs -n1 unzip -d jigsaw-toxic-comment-classification-challenge

kaggle competitions download -c jigsaw-unintended-bias-in-toxicity-classification
unzip jigsaw-unintended-bias-in-toxicity-classification.zip -d jigsaw-unintended-bias-in-toxicity-classification

kaggle competitions download -c jigsaw-multilingual-toxic-comment-classification
unzip jigsaw-multilingual-toxic-comment-classification.zip -d jigsaw-multilingual-toxic-comment-classification

Comece a treinar

Desafio de Classificação de Comentários Tóxicos

 # combine test.csv and test_labels.csv
python preprocessing_utils.py --test_csv jigsaw_data/jigsaw-toxic-comment-classification-challenge/test.csv --update_test

python train.py --config configs/Toxic_comment_classification_BERT.json

Viés não intencional no desafio de toxicicidade

python train.py --config configs/Unintended_bias_toxic_comment_classification_RoBERTa_combined.json

Classificação multilíngue de comentários tóxicos

Os dados traduzidos (Fonte 1 Fonte 2) podem ser baixados de Kaggle em francês, espanhol, italiano, português, turco e russo (os idiomas disponíveis no conjunto de testes).

 # combine test.csv and test_labels.csv
python preprocessing_utils.py --test_csv jigsaw_data/jigsaw-multilingual-toxic-comment-classification/test.csv --update_test

python train.py --config configs/Multilingual_toxic_comment_classification_XLMR.json

Monitore o progresso com o tensorboard

tensorboard --logdir=./saved

Avaliação do modelo

Desafio de Classificação de Comentários Tóxicos

Esse desafio é avaliado na pontuação média da AUC de todos os rótulos.

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

Viés não intencional no desafio de toxicicidade

Esse desafio é avaliado em uma nova métrica de viés que combina diferentes pontuações da AUC para equilibrar o desempenho geral. Mais informações sobre essa métrica aqui.

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

# to get the final bias metric
python model_eval/compute_bias_metric.py

Classificação multilíngue de comentários tóxicos

Esse desafio é avaliado na pontuação da AUC do rótulo tóxico principal.

python evaluate.py --checkpoint saved/lightning_logs/checkpoints/example_checkpoint.pth --test_csv test.csv

Citação

 @misc{Detoxify,
  title={Detoxify},
  author={Hanu, Laura and {Unitary team}},
  howpublished={Github. https://github.com/unitaryai/detoxify},
  year={2020}
}

Expandir