
경고 : Torchtext 개발이 중지되고 0.18 릴리스 (2024 년 4 월)는 라이브러리의 마지막 안정적인 릴리스가됩니다.
이 저장소는 다음으로 구성됩니다.
Python 패키지 관리 시스템으로 Anaconda를 권장합니다. Pytorch 설치에 대한 자세한 내용은 pytorch.org를 참조하십시오. 다음은 해당 torchtext 버전과 지원되는 Python 버전입니다.
| Pytorch 버전 | TorchText 버전 | 지원되는 파이썬 버전 |
|---|---|---|
| 야간 빌드 | 기본 | > = 3.8, <= 3.11 |
| 2.3.0 | 0.18.0 | > = 3.8, <= 3.11 |
| 2.2.0 | 0.17.0 | > = 3.8, <= 3.11 |
| 2.1.0 | 0.16.0 | > = 3.8, <= 3.11 |
| 2.0.0 | 0.15.0 | > = 3.8, <= 3.11 |
| 1.13.0 | 0.14.0 | > = 3.7, <= 3.10 |
| 1.12.0 | 0.13.0 | > = 3.7, <= 3.10 |
| 1.11.0 | 0.12.0 | > = 3.6, <= 3.9 |
| 1.10.0 | 0.11.0 | > = 3.6, <= 3.9 |
| 1.9.1 | 0.10.1 | > = 3.6, <= 3.9 |
| 1.9 | 0.10 | > = 3.6, <= 3.9 |
| 1.8.1 | 0.9.1 | > = 3.6, <= 3.9 |
| 1.8 | 0.9 | > = 3.6, <= 3.9 |
| 1.7.1 | 0.8.1 | > = 3.6, <= 3.9 |
| 1.7 | 0.8 | > = 3.6, <= 3.8 |
| 1.6 | 0.7 | > = 3.6, <= 3.8 |
| 1.5 | 0.6 | > = 3.5, <= 3.8 |
| 1.4 | 0.5 | 2.7,> = 3.5, <= 3.8 |
| 0.4 이하 | 0.2.3 | 2.7,> = 3.5, <= 3.8 |
콘다 사용 :
콘다 설치 -C Pytorch Torchtext
PIP 사용 :
PIP TorchText를 설치하십시오
Spacy의 영어 토큰 화기를 사용하려면 Spacy를 설치하고 영어 모델을 다운로드해야합니다.
PIP 설치 SPACY Python -m Spacy 다운로드 EN_CORE_WEB_SM
또는, 당신은 계약에서 Moses Tokenizer 포트를 사용하고 싶을 수도 있습니다 (NLTK에서 분할). 성찬을 설치해야합니다.
PIP를 설치하십시오
TorchText 0.5 이하의 경우 sentencepiece :
콘다 설치 -C Powerai 문장
소스에서 Torchtext를 구축하려면 git , CMake 및 g++ 와 같은 C ++ 11 컴파일러가 필요합니다. :
git 클론 https://github.com/pytorch/text torchtext CD 토치 텍스트 git submodule update --init -Recursive # Linux Python Setup.py Clean 설치 # OSX cc = clang cxx = clang ++ python setup.py clean install # 또는``Python setup.py 개발 ''’을 수정하는 경우.
메모
소스에서 빌드 할 때는 Pytorch를 구축하는 데 사용되는 C ++ 컴파일러와 동일한 C ++ 컴파일러를 가지고 있는지 확인하십시오. 간단한 방법은 소스에서 Pytorch를 구축하고 동일한 환경을 사용하여 Torchtext를 구축하는 것입니다. 야간 Pytorch 빌드를 사용하는 경우 Conda (여기)와 PIP (여기)로 구축 된 환경을 체크 아웃하십시오.
또한 TorchText의 데이터 세트는 TorchData 라이브러리를 사용하여 구현됩니다. 설치 지침을 살펴보면 최신 야간을 다운로드하거나 소스에서 설치하십시오.
여기에서 문서를 찾으십시오.
데이터 세트 모듈에는 현재 다음이 포함되어 있습니다.
라이브러리는 현재 미리 훈련 된 모델로 구성됩니다.
Transforms 모듈은 현재 다음과 같은 스크립트 가능한 토큰 화제를 지원합니다.
TorchText를 시작하려면 사용자는 PyTorch 웹 사이트에서 제공되는 다음 자습서를 참조 할 수 있습니다.
이것은 공개 데이터 세트를 다운로드하고 준비하는 유틸리티 라이브러리입니다. 당사는 이러한 데이터 세트를 호스팅하거나 배포하지 않거나 품질이나 공정성을 보증하거나 데이터 세트를 사용할 수있는 라이센스가 있다고 주장합니다. 데이터 세트 라이센스에 따라 데이터 세트를 사용할 수있는 권한이 있는지 확인하는 것은 귀하의 책임입니다.
데이터 세트 소유자이고 그 일부 (설명, 인용 등)를 업데이트하려면이 라이브러리에 데이터 세트가 포함되기를 원하지 않으면 GitHub 문제를 해결하십시오. ML 커뮤니티에 기여해 주셔서 감사합니다!