
Luga est un mot swahili pour la langue. FastText fournit un outil de détection de langage fast-rapide. Lamentablement, l'API de FastText est sans beauté, et la documentation est un peu floue. Il est également funky que nous devons télécharger et charger manuellement les modèles.
C'est là que Luga entre en jeu. Nous abstrons des étapes inutiles et vous permettons de faire précisément une chose: détecter le langage du texte.
Rester immobile. Restez silencieux - les relations entre les langues indo-européennes et uraliques par Minna Sundberg.

python -m pip install -U luga from luga import language
print ( language ( "the world ended yesterday" ))
# Language(name='en', score=0.98)Avec la liste des textes, nous pouvons créer un masque pour un pipeline de filtrage, qui peut être utilisé, par exemple, avec DataFrames
from luga import language
import pandas as pd
examples = [ "Jeg har ikke en rød reje" , "Det blæser en halv pelican" , "We are not robots yet" ]
languages ( texts = examples , only_language = True , to_array = True ) == "en"
# output
# array([False, False, True])
dataf = pd . DataFrame ({ "text" : examples })
dataf . loc [ lambda d : languages ( texts = d [ "text" ]. to_list (), only_language = True , to_array = True ) == "en" ]
# output
# 2 We are not robots yet
# Name: text, dtype: objectTélécharger le modèle
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O /tmp/lid.176.binCharge et utilisation
import fasttext
PATH_TO_MODEL = '/tmp/lid.176.bin'
fmodel = fasttext . load_model ( PATH_TO_MODEL )
fmodel . predict ([ "the world has ended yesterday" ])
# ([['__label__en']], [array([0.98046654], dtype=float32)])poetry run pre-commit install # assumes git push is completed
git tag -l # lists tags
git tag v * . * . * # Major.Minor.Fix
git push origin tag v * . * . *
# to delete tag:
git tag -d v * . * . * && git push origin tag -d v * . * . *
# change project_toml and __init__.py to reflect new version artifacts.py