
LUGA é uma palavra suaíli para a linguagem. O FastText fornece uma ferramenta de detecção de idioma ardente. Lamentavelmente, a API da FastText não tem beleza e a documentação é um pouco confusa. Também é descolado que precisamos baixar e carregar manualmente modelos.
Aqui é onde o LUGA entra. Abstridamos etapas desnecessárias e permitimos que você faça exatamente uma coisa: detectar a linguagem de texto.
Ficar parado. Fique silencioso - as relações entre idiomas indo -europeus e urral de Minna Sundberg.

python -m pip install -U luga from luga import language
print ( language ( "the world ended yesterday" ))
# Language(name='en', score=0.98)Com a lista de textos, podemos criar uma máscara para um pipeline de filtragem, que pode ser usado, por exemplo, com dados de dados
from luga import language
import pandas as pd
examples = [ "Jeg har ikke en rød reje" , "Det blæser en halv pelican" , "We are not robots yet" ]
languages ( texts = examples , only_language = True , to_array = True ) == "en"
# output
# array([False, False, True])
dataf = pd . DataFrame ({ "text" : examples })
dataf . loc [ lambda d : languages ( texts = d [ "text" ]. to_list (), only_language = True , to_array = True ) == "en" ]
# output
# 2 We are not robots yet
# Name: text, dtype: objectBaixe o modelo
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O /tmp/lid.176.binCarregar e usar
import fasttext
PATH_TO_MODEL = '/tmp/lid.176.bin'
fmodel = fasttext . load_model ( PATH_TO_MODEL )
fmodel . predict ([ "the world has ended yesterday" ])
# ([['__label__en']], [array([0.98046654], dtype=float32)])poetry run pre-commit install # assumes git push is completed
git tag -l # lists tags
git tag v * . * . * # Major.Minor.Fix
git push origin tag v * . * . *
# to delete tag:
git tag -d v * . * . * && git push origin tag -d v * . * . *
# change project_toml and __init__.py to reflect new version artifacts.py