
Luga es una palabra swahili para el idioma. FastText proporciona una herramienta de detección de lenguaje de rápido rápido. Lamentablemente, la API de FastText es sin belleza, y la documentación es un poco confusa. También es funky que tengamos que descargar y cargar modelos manualmente.
Aquí es donde entra Luga . Abrazamos pasos innecesarios y le permitimos hacer precisamente una cosa: detectar el lenguaje de texto.
Estarse quieto. Mantente en silencio: las relaciones entre las lenguas indoeuropeas y urálicas por Minna Sundberg.

python -m pip install -U luga from luga import language
print ( language ( "the world ended yesterday" ))
# Language(name='en', score=0.98)Con la lista de textos, podemos crear una máscara para una tubería de filtrado, que se puede usar, por ejemplo, con DataFrames
from luga import language
import pandas as pd
examples = [ "Jeg har ikke en rød reje" , "Det blæser en halv pelican" , "We are not robots yet" ]
languages ( texts = examples , only_language = True , to_array = True ) == "en"
# output
# array([False, False, True])
dataf = pd . DataFrame ({ "text" : examples })
dataf . loc [ lambda d : languages ( texts = d [ "text" ]. to_list (), only_language = True , to_array = True ) == "en" ]
# output
# 2 We are not robots yet
# Name: text, dtype: objectDescarga el modelo
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O /tmp/lid.176.binCargar y usar
import fasttext
PATH_TO_MODEL = '/tmp/lid.176.bin'
fmodel = fasttext . load_model ( PATH_TO_MODEL )
fmodel . predict ([ "the world has ended yesterday" ])
# ([['__label__en']], [array([0.98046654], dtype=float32)])poetry run pre-commit install # assumes git push is completed
git tag -l # lists tags
git tag v * . * . * # Major.Minor.Fix
git push origin tag v * . * . *
# to delete tag:
git tag -d v * . * . * && git push origin tag -d v * . * . *
# change project_toml and __init__.py to reflect new version artifacts.py Línea 111 Cast para enumerar [STR] que causa problemas