
Aviso : o desenvolvimento da Torchtext é interrompido e a versão de 0,18 (abril de 2024) será o último lançamento estável da biblioteca.
Este repositório consiste em:
Recomendamos a Anaconda como um sistema de gerenciamento de pacotes Python. Consulte o pytorch.org para obter os detalhes da instalação do Pytorch. A seguir, são apresentadas as versões torchtext correspondentes e as versões Python suportadas.
| Versão Pytorch | Versão da Torchtext | Versão do Python suportado |
|---|---|---|
| Construir noturno | principal | > = 3.8, <= 3.11 |
| 2.3.0 | 0.18.0 | > = 3.8, <= 3.11 |
| 2.2.0 | 0.17.0 | > = 3.8, <= 3.11 |
| 2.1.0 | 0.16.0 | > = 3.8, <= 3.11 |
| 2.0.0 | 0,15.0 | > = 3.8, <= 3.11 |
| 1.13.0 | 0,14.0 | > = 3.7, <= 3.10 |
| 1.12.0 | 0,13.0 | > = 3.7, <= 3.10 |
| 1.11.0 | 0,12.0 | > = 3.6, <= 3.9 |
| 1.10.0 | 0.11.0 | > = 3.6, <= 3.9 |
| 1.9.1 | 0.10.1 | > = 3.6, <= 3.9 |
| 1.9 | 0,10 | > = 3.6, <= 3.9 |
| 1.8.1 | 0.9.1 | > = 3.6, <= 3.9 |
| 1.8 | 0,9 | > = 3.6, <= 3.9 |
| 1.7.1 | 0.8.1 | > = 3.6, <= 3.9 |
| 1.7 | 0,8 | > = 3.6, <= 3.8 |
| 1.6 | 0,7 | > = 3.6, <= 3.8 |
| 1.5 | 0,6 | > = 3,5, <= 3.8 |
| 1.4 | 0,5 | 2.7,> = 3,5, <= 3.8 |
| 0,4 e abaixo | 0.2.3 | 2.7,> = 3,5, <= 3.8 |
Usando conda:
CONDA Instalação -C pytorch Torchtext
Usando PIP:
PIP Instale a TorchText
Se você deseja usar o Tokenizer Inglês da Spacy, precisa instalar o Spacy e baixar seu modelo em inglês:
pip install spacy Python -m Spacy Download en_core_web_sm
Como alternativa, você pode querer usar a porta do tokenizer de Moisés em sacremosas (dividido do NLTK). Você tem que instalar sacrremes:
pip install sacremoses
Para TorchText 0.5 e abaixo, sentencepiece :
Profund Install -C Powerai Sentenspipe
Para construir o Torchtext a partir da fonte, você precisa do compilador git , CMake e C ++ 11, como g++ .:
clone git https://github.com/pytorch/text tingtext CD Torchtext Atualização do submódulo Git -Init -Recursiva # Linux python setup.py limpo instalação # Osx Cc = clang cxx = clang ++ python setup.py limpo instalação # ou `` python setup.py Develop`` se você estiver fazendo modificações.
Observação
Ao construir a partir da fonte, verifique se você tem o mesmo compilador C ++ usado para construir Pytorch. Uma maneira simples é construir o Pytorch a partir da fonte e usar o mesmo ambiente para criar a Torchtext. Se você estiver usando a construção noturna do Pytorch, consulte o ambiente que ele foi construído com conda (aqui) e pip (aqui).
Além disso, os conjuntos de dados no Torchtext são implementados usando a biblioteca Torchdata. Por favor, dê uma olhada nas instruções de instalação para baixar as últimas notícias ou instalar da fonte.
Encontre a documentação aqui.
O módulo DataSets atualmente contém:
Atualmente, a biblioteca consiste em seguir os modelos pré-treinados:
O módulo Transforms suporta atualmente os seguintes tokenizadores de escritor:
Para começar a Torchtext, os usuários podem se referir ao seguinte tutorial disponível no site da Pytorch.
Esta é uma biblioteca de utilitários que baixa e prepara conjuntos de dados públicos. Não hospedamos ou distribuímos esses conjuntos de dados, atestamos sua qualidade ou justiça ou afirmamos que você tem licença para usar o conjunto de dados. É de sua responsabilidade determinar se você tem permissão para usar o conjunto de dados na licença do conjunto de dados.
Se você é proprietário do conjunto de dados e deseja atualizar qualquer parte dele (descrição, citação etc.), ou não deseja que seu conjunto de dados seja incluído nesta biblioteca, entre em contato com um problema do Github. Obrigado pela sua contribuição para a comunidade ML!