
Luga ist ein Swahili -Wort für die Sprache. FastText bietet ein fließendes Tool zur Erkennung von Sprachen. BEDEUCHT, FASTTEXTS API ist Schönheitsless und die Dokumentation ist etwas unscharf. Es ist auch funky, dass wir Modelle manuell herunterladen und laden müssen.
Hier kommt Luga ins Spiel. Wir sind unnötige Schritte abstrakt und ermöglichen es Ihnen, genau eine Sache zu tun: Textsprache zu erkennen.
Still stehen. Schweigen - die Beziehungen zwischen indoeuropäischen und uralischen Sprachen von Minna Sundberg.

python -m pip install -U luga from luga import language
print ( language ( "the world ended yesterday" ))
# Language(name='en', score=0.98)Mit der Liste der Texte können wir eine Maske für eine Filterpipeline erstellen, die beispielsweise mit DataFrames verwendet werden kann
from luga import language
import pandas as pd
examples = [ "Jeg har ikke en rød reje" , "Det blæser en halv pelican" , "We are not robots yet" ]
languages ( texts = examples , only_language = True , to_array = True ) == "en"
# output
# array([False, False, True])
dataf = pd . DataFrame ({ "text" : examples })
dataf . loc [ lambda d : languages ( texts = d [ "text" ]. to_list (), only_language = True , to_array = True ) == "en" ]
# output
# 2 We are not robots yet
# Name: text, dtype: objectLaden Sie das Modell herunter
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O /tmp/lid.176.binLaden und verwenden
import fasttext
PATH_TO_MODEL = '/tmp/lid.176.bin'
fmodel = fasttext . load_model ( PATH_TO_MODEL )
fmodel . predict ([ "the world has ended yesterday" ])
# ([['__label__en']], [array([0.98046654], dtype=float32)])poetry run pre-commit install # assumes git push is completed
git tag -l # lists tags
git tag v * . * . * # Major.Minor.Fix
git push origin tag v * . * . *
# to delete tag:
git tag -d v * . * . * && git push origin tag -d v * . * . *
# change project_toml and __init__.py to reflect new version artifacts.py Line 111, um [STR] aufzulisten, die Probleme verursacht