
ADVERTENCIA : El desarrollo de TorchText se detiene y el lanzamiento 0.18 (abril de 2024) será el último lanzamiento estable de la biblioteca.
Este repositorio consiste en:
Recomendamos a Anaconda como un sistema de gestión de paquetes de Python. Consulte pytorch.org para obtener los detalles de la instalación de Pytorch. Las siguientes son las versiones de torchtext correspondientes y las versiones de Python compatibles.
| Versión de pytorch | Versión de TorchText | Versión de Python compatible |
|---|---|---|
| construcción nocturna | principal | > = 3.8, <= 3.11 |
| 2.3.0 | 0.18.0 | > = 3.8, <= 3.11 |
| 2.2.0 | 0.17.0 | > = 3.8, <= 3.11 |
| 2.1.0 | 0.16.0 | > = 3.8, <= 3.11 |
| 2.0.0 | 0.15.0 | > = 3.8, <= 3.11 |
| 1.13.0 | 0.14.0 | > = 3.7, <= 3.10 |
| 1.12.0 | 0.13.0 | > = 3.7, <= 3.10 |
| 1.11.0 | 0.12.0 | > = 3.6, <= 3.9 |
| 1.10.0 | 0.11.0 | > = 3.6, <= 3.9 |
| 1.9.1 | 0.10.1 | > = 3.6, <= 3.9 |
| 1.9 | 0.10 | > = 3.6, <= 3.9 |
| 1.8.1 | 0.9.1 | > = 3.6, <= 3.9 |
| 1.8 | 0.9 | > = 3.6, <= 3.9 |
| 1.7.1 | 0.8.1 | > = 3.6, <= 3.9 |
| 1.7 | 0.8 | > = 3.6, <= 3.8 |
| 1.6 | 0.7 | > = 3.6, <= 3.8 |
| 1.5 | 0.6 | > = 3.5, <= 3.8 |
| 1.4 | 0.5 | 2.7,> = 3.5, <= 3.8 |
| 0.4 y debajo | 0.2.3 | 2.7,> = 3.5, <= 3.8 |
Uso de condena:
Conda instalación -c pytorch torcext
Usando PIP:
PIP Instalar TorchText
Si desea usar Tokenizer en inglés de Spacy, debe instalar Spacy y descargar su modelo en inglés:
PIP install Spacy Python -M Spacy Descargar EN_CORE_WEB_SM
Alternativamente, es posible que desee usar el puerto Tokenizer Moisés en sacremos (dividido de NLTK). Tienes que instalar sacremos:
PIP instala sacremos
Para TorchText 0.5 y abajo, sentencepiece :
Conda install -c powerai frasepiece
Para construir TorchText desde la fuente, necesita git , CMake y C ++ 11 compilador como g++ .:
clon git https://github.com/pytorch/text torctext CD TorchText Git Submodule Update --init - -RECURSIVE # Linux Python setup.py Clean instalación # OSX Cc = clang cxx = clang ++ python setup.py Clean instalación # o `` Python setup.py desarrollar '' si está haciendo modificaciones.
Nota
Al construir desde la fuente, asegúrese de tener el mismo compilador C ++ que el utilizado para construir Pytorch. Una forma simple es construir Pytorch desde la fuente y usar el mismo entorno para construir TorchText. Si está utilizando la construcción nocturna de Pytorch, consulte el entorno que se construyó con conda (aquí) y PIP (aquí).
Además, los conjuntos de datos en TorchText se implementan utilizando la biblioteca TorchData. Eche un vistazo a las instrucciones de instalación para descargar las últimas noches o instalar desde la fuente.
Encuentra la documentación aquí.
El módulo de DataSets contiene actualmente:
La biblioteca actualmente consiste en los siguientes modelos previamente capacitados:
El módulo de transformación actualmente admite siguientes tokenizadores scriptables:
Para comenzar con TorchText, los usuarios pueden consultar el siguiente tutorial disponible en el sitio web de Pytorch.
Esta es una biblioteca de servicios públicos que descarga y prepara conjuntos de datos públicos. No alojamos ni distribuimos estos conjuntos de datos, respondemos por su calidad o equidad, ni afirmamos que tiene licencia para usar el conjunto de datos. Es su responsabilidad determinar si tiene permiso para usar el conjunto de datos bajo la licencia del conjunto de datos.
Si es propietario de un conjunto de datos y desea actualizar cualquier parte de ella (descripción, cita, etc.), o no desea que su conjunto de datos se incluya en esta biblioteca, póngase en contacto con un problema de GitHub. ¡Gracias por su contribución a la comunidad ML!