
Peringatan : Pengembangan TorchText dihentikan dan rilis 0,18 (April 2024) akan menjadi rilis stabil terakhir dari perpustakaan.
Repositori ini terdiri dari:
Kami merekomendasikan Anaconda sebagai sistem manajemen paket Python. Silakan merujuk ke pytorch.org untuk detail instalasi Pytorch. Berikut ini adalah versi torchtext yang sesuai dan versi Python yang didukung.
| Versi Pytorch | Versi TorchText | Versi Python yang didukung |
|---|---|---|
| Bangun malam | utama | > = 3.8, <= 3.11 |
| 2.3.0 | 0.18.0 | > = 3.8, <= 3.11 |
| 2.2.0 | 0.17.0 | > = 3.8, <= 3.11 |
| 2.1.0 | 0.16.0 | > = 3.8, <= 3.11 |
| 2.0.0 | 0.15.0 | > = 3.8, <= 3.11 |
| 1.13.0 | 0.14.0 | > = 3.7, <= 3.10 |
| 1.12.0 | 0.13.0 | > = 3.7, <= 3.10 |
| 1.11.0 | 0.12.0 | > = 3.6, <= 3.9 |
| 1.10.0 | 0.11.0 | > = 3.6, <= 3.9 |
| 1.9.1 | 0.10.1 | > = 3.6, <= 3.9 |
| 1.9 | 0.10 | > = 3.6, <= 3.9 |
| 1.8.1 | 0.9.1 | > = 3.6, <= 3.9 |
| 1.8 | 0.9 | > = 3.6, <= 3.9 |
| 1.7.1 | 0.8.1 | > = 3.6, <= 3.9 |
| 1.7 | 0.8 | > = 3.6, <= 3.8 |
| 1.6 | 0.7 | > = 3.6, <= 3.8 |
| 1.5 | 0.6 | > = 3.5, <= 3.8 |
| 1.4 | 0,5 | 2.7,> = 3.5, <= 3.8 |
| 0.4 dan di bawah | 0.2.3 | 2.7,> = 3.5, <= 3.8 |
Menggunakan conda:
conda instal -c pytorch torchtext
Menggunakan Pip:
Pip Instal TorchText
Jika Anda ingin menggunakan Tokenizer Bahasa Inggris dari Spacy, Anda perlu menginstal Spacy dan mengunduh model bahasa Inggrisnya:
Pip Instal Spacy python -m download spacy en_core_web_sm
Atau, Anda mungkin ingin menggunakan port tokenizer Moses secara sakral (dibagi dari NLTK). Anda harus menginstal sakral:
PIP memasang sakral
Untuk Torchtext 0,5 dan di bawah, sentencepiece :
conda install -c Powerai kalimat
Untuk membangun torchtext dari sumber, Anda memerlukan git , CMake dan c ++ 11 kompiler seperti g++ .:
git clone https://github.com/pytorch/text torchtext CD TorchText Git Submodule Update --inin -in -init # Linux python setup.py clean instal # OSX Cc = clang cxx = clang ++ python setup.py clean install # atau `` python setup.py kembangkan`` Jika Anda membuat modifikasi.
Catatan
Saat membangun dari sumber, pastikan Anda memiliki kompiler C ++ yang sama dengan yang digunakan untuk membangun pytorch. Cara sederhana adalah membangun pytorch dari sumber dan menggunakan lingkungan yang sama untuk membangun torchtext. Jika Anda menggunakan build malam pytorch, periksa lingkungan yang dibangun dengan Conda (di sini) dan Pip (di sini).
Selain itu, kumpulan data di TorchText diimplementasikan menggunakan pustaka Torchdata. Silakan lihat instruksi instalasi untuk mengunduh malam terbaru atau menginstal dari sumber.
Temukan dokumentasinya di sini.
Modul dataset saat ini berisi:
Perpustakaan saat ini terdiri dari model pra-terlatih berikut:
Modul Transforms saat ini mendukung tokenizer skrip berikut:
Untuk memulai dengan TorchText, pengguna dapat merujuk ke tutorial berikut yang tersedia di situs web Pytorch.
Ini adalah perpustakaan utilitas yang mengunduh dan menyiapkan kumpulan data publik. Kami tidak meng -host atau mendistribusikan set data ini, menjamin kualitas atau keadilannya, atau mengklaim bahwa Anda memiliki lisensi untuk menggunakan dataset. Adalah tanggung jawab Anda untuk menentukan apakah Anda memiliki izin untuk menggunakan dataset di bawah lisensi dataset.
Jika Anda seorang pemilik dataset dan ingin memperbarui bagian mana pun dari itu (deskripsi, kutipan, dll.), Atau tidak ingin dataset Anda dimasukkan dalam perpustakaan ini, silakan hubungi melalui masalah GitHub. Terima kasih atas kontribusi Anda untuk komunitas ML!