Descargar PyTorch NLP - Descargar el código fuente de PyTorch NLP

PyTorch NLP

Otro código fuente

Python 3.5 Support, Sampler Pipelining,

Descargar

? Ahora archivado?

Con la cadena de herramientas Pytorch madurando, es hora de archivar reposuras como este. Podrá encontrar opciones más desarrolladas para cada parte de este kit de herramientas:

Abrazando conjuntos de datos de cara (conjuntos de datos)
Abrazando tokenizadores faciales (codificadores)
Métricas de la cara abrazada (métricas)
Pytorch Datapipes (Descargar y Samplers)
Abrazando incrustaciones faciales (vectores de palabras)
Pytorch nn (NN)
Pytorch TorchText (todo en uno)

¡Feliz desarrollo!

No dude en ponerse en contacto conmigo si alguien quiere desarchive este repositorio y continúe desarrollándolo. Puedes comunicarme conmigo en "PetroChukm [at] gmail.com".

Utilidades básicas para el procesamiento del lenguaje natural de Pytorch (PNL)

Pytorch-NLP, o torchnlp para abreviar, es una biblioteca de utilidades básicas para Pytorch NLP. torchnlp extiende Pytorch para proporcionarle funciones básicas de procesamiento de datos de texto.

Logotipo de Chloe Yeo, patrocinio corporativo de Wellsaid Labs

Instalación?

Asegúrese de tener Python 3.6+ y Pytorch 1.0+. Luego puede instalar pytorch-nlp usando PIP:

 pip install pytorch - nlp

O para instalar el último código a través de:

 pip install git + https : // github . com / PetrochukM / PyTorch - NLP . git

Documento

La documentación completa para Pytorch-NLP está disponible a través de nuestro sitio web ReadThEDOCS.

Empezar

Dentro de una tubería de datos NLP, querrá implementar estos pasos básicos:

1. ¿Cargar sus datos?

Cargue el conjunto de datos IMDB, por ejemplo:

 from torchnlp . datasets import imdb_dataset

# Load the imdb training dataset
train = imdb_dataset ( train = True )
train [ 0 ]  # RETURNS: {'text': 'For a movie that gets..', 'sentiment': 'pos'}

Cargue un conjunto de datos personalizado, por ejemplo:

 from pathlib import Path

from torchnlp . download import download_file_maybe_extract

directory_path = Path ( 'data/' )
train_file_path = Path ( 'trees/train.txt' )

download_file_maybe_extract (
    url = 'http://nlp.stanford.edu/sentiment/trainDevTestTrees_PTB.zip' ,
    directory = directory_path ,
    check_files = [ train_file_path ])

open ( directory_path / train_file_path )

¡No te preocupes, manejaremos el almacenamiento en caché por ti!

2. texto para tensor

Tokenize y codifica su texto como tensor.

Por ejemplo, un WhitespaceEncoder divide el texto en tokens cada vez que encuentra un personaje de espacio blanco.

 from torchnlp . encoders . text import WhitespaceEncoder

loaded_data = [ "now this ain't funny" , "so don't you dare laugh" ]
encoder = WhitespaceEncoder ( loaded_data )
encoded_data = [ encoder . encode ( example ) for example in loaded_data ]

3. Tensor al lote

Con sus datos cargados y codificados en la mano, querrá un conjunto de datos.

 import torch
from torchnlp . samplers import BucketBatchSampler
from torchnlp . utils import collate_tensors
from torchnlp . encoders . text import stack_and_pad_tensors

encoded_data = [ torch . randn ( 2 ), torch . randn ( 3 ), torch . randn ( 4 ), torch . randn ( 5 )]

train_sampler = torch . utils . data . sampler . SequentialSampler ( encoded_data )
train_batch_sampler = BucketBatchSampler (
    train_sampler , batch_size = 2 , drop_last = False , sort_key = lambda i : encoded_data [ i ]. shape [ 0 ])

batches = [[ encoded_data [ i ] for i in batch ] for batch in train_batch_sampler ]
batches = [ collate_tensors ( batch , stack_tensors = stack_and_pad_tensors ) for batch in batches ]

¡Pytorch-NLP se basa en torch.stack parte superior de torch.utils.data.sampler default_collate Pytorch.

4. Entrenamiento e inferencia

Con su lote en la mano, puede usar Pytorch para desarrollar y capacitar a su modelo con descenso de gradiente. Por ejemplo, consulte este código de ejemplo para capacitar en el corpus de inferencia del lenguaje natural de Stanford (SNLI).

Por último, pero no menos importante

¡Pytorch-NLP tiene un par de paquetes de utilidad centrados en la PNL más para apoyarlo! ?

Funciones deterministas

Ahora ha configurado su tubería, es posible que desee asegurarse de que algunas funciones funcionen de manera determinista. Envuelva cualquier código aleatorio, con fork_rng y estará listo para comenzar, así:

 import random
import numpy
import torch

from torchnlp . random import fork_rng

with fork_rng ( seed = 123 ):  # Ensure determinism
    print ( 'Random:' , random . randint ( 1 , 2 ** 31 ))
    print ( 'Numpy:' , numpy . random . randint ( 1 , 2 ** 31 ))
    print ( 'Torch:' , int ( torch . randint ( 1 , 2 ** 31 , ( 1 ,))))

Esto siempre imprimirá:

 Random: 224899943
Numpy: 843828735
Torch: 843828736

Vectores de palabras previamente capacitados

Ahora que ha calculado su vocabulario, es posible que desee utilizar vectores de palabras previamente capacitados para establecer sus incrustaciones, así: así:

 import torch
from torchnlp . encoders . text import WhitespaceEncoder
from torchnlp . word_to_vector import GloVe

encoder = WhitespaceEncoder ([ "now this ain't funny" , "so don't you dare laugh" ])

vocab_set = set ( encoder . vocab )
pretrained_embedding = GloVe ( name = '6B' , dim = 100 , is_include = lambda w : w in vocab_set )
embedding_weights = torch . Tensor ( encoder . vocab_size , pretrained_embedding . dim )
for i , token in enumerate ( encoder . vocab ):
    embedding_weights [ i ] = pretrained_embedding [ token ]

Capas de redes neuronales

Por ejemplo, desde el paquete de la red neuronal, aplique el LockedDropout de última generación:

 import torch
from torchnlp . nn import LockedDropout

input_ = torch . randn ( 6 , 3 , 10 )
dropout = LockedDropout ( 0.5 )

# Apply a LockedDropout to `input_`
dropout ( input_ ) # RETURNS: torch.FloatTensor (6x3x10)

Métrica

Calcule las métricas comunes de PNL, como la puntuación BLEU.

 from torchnlp . metrics import get_moses_multi_bleu

hypotheses = [ "The brown fox jumps over the dog 笑" ]
references = [ "The quick brown fox jumps over the lazy dog 笑" ]

# Compute BLEU score with the official BLEU perl script
get_moses_multi_bleu ( hypotheses , references , lowercase = True )  # RETURNS: 47.9

Ayuda ❓

Tal vez mirar ejemplos más largos puede ayudarlo a examples/ .

¿Necesitas más ayuda? Estamos felices de responder a sus preguntas a través del chat de Gitter

Que contribuye

Hemos lanzado Pytorch-NLP porque encontramos la falta de kits de herramientas básicos para PNL en Pytorch. Esperamos que otras organizaciones puedan beneficiarse del proyecto. Estamos agradecidos por cualquier contribución de la comunidad.

Guía contribuyente

Lea nuestra guía contribuyente para aprender sobre nuestro proceso de desarrollo, cómo proponer las correcciones de errores y las mejoras, y cómo construir y probar sus cambios en Pytorch-NLP.

Trabajo relacionado

Teatro de antorchas

TorchText y Pytorch-NLP difieren en la arquitectura y el conjunto de características; De lo contrario, son similares. TorchText y Pytorch-NLP proporcionan vectores de palabras previamente capacitados, conjuntos de datos, iteradores y codificadores de texto. Pytorch-NLP también proporciona módulos de red neuronales y métricas. Desde el punto de vista de la arquitectura, TorchText está orientado a objetos con un acoplamiento externo, mientras que Pytorch-NLP está orientado a objetos con bajo acoplamiento.

Allennlp

Allennlp está diseñado para ser una plataforma para la investigación. Pytorch-NLP está diseñado para ser un kit de herramientas ligero.

Autores

Michael Petrochuk - Desarrollador
Chloe Yeo - Diseño de logotipo

Citando

Si encuentra útil Pytorch-NLP para una publicación académica, utilice el siguiente bibtex para citarlo:

 @misc{pytorch-nlp,
  author = {Petrochuk, Michael},
  title = {PyTorch-NLP: Rapid Prototyping with PyTorch Natural Language Processing (NLP) Tools},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/PetrochukM/PyTorch-NLP}},
}

Expandir

Información adicional

Versión Python 3.5 Support, Sampler Pipelining,
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 980.17KB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo