
Luga adalah kata Swahili untuk bahasa. FastText menyediakan alat deteksi bahasa yang cepat menyala. Lamentable, FastText's API kurang kecantikan, dan dokumentasinya agak kabur. Ini juga funky bahwa kami harus mengunduh dan memuat model secara manual.
Di sinilah Luga masuk. Kami abstrak langkah -langkah yang tidak perlu dan memungkinkan Anda untuk melakukan satu hal dengan tepat: mendeteksi bahasa teks.
Berdiri diam. Tetap Diam - Hubungan antara bahasa Indo -Eropa dan Uralic oleh Minna Sundberg.

python -m pip install -U luga from luga import language
print ( language ( "the world ended yesterday" ))
# Language(name='en', score=0.98)Dengan daftar teks, kita dapat membuat mask untuk pipa penyaringan, yang dapat digunakan, misalnya, dengan DataFrames
from luga import language
import pandas as pd
examples = [ "Jeg har ikke en rød reje" , "Det blæser en halv pelican" , "We are not robots yet" ]
languages ( texts = examples , only_language = True , to_array = True ) == "en"
# output
# array([False, False, True])
dataf = pd . DataFrame ({ "text" : examples })
dataf . loc [ lambda d : languages ( texts = d [ "text" ]. to_list (), only_language = True , to_array = True ) == "en" ]
# output
# 2 We are not robots yet
# Name: text, dtype: objectUnduh modelnya
wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin -O /tmp/lid.176.binMemuat dan menggunakan
import fasttext
PATH_TO_MODEL = '/tmp/lid.176.bin'
fmodel = fasttext . load_model ( PATH_TO_MODEL )
fmodel . predict ([ "the world has ended yesterday" ])
# ([['__label__en']], [array([0.98046654], dtype=float32)])poetry run pre-commit install # assumes git push is completed
git tag -l # lists tags
git tag v * . * . * # Major.Minor.Fix
git push origin tag v * . * . *
# to delete tag:
git tag -d v * . * . * && git push origin tag -d v * . * . *
# change project_toml and __init__.py to reflect new version artifacts.py line 111 cast ke daftar [str] yang menyebabkan masalah