practical 1 descarga - practical 1 código fuente de descarga

practical 1

Otro código fuente

1.0.0

Descargar

Práctico 1: word2vec

[Brendan Shillingford, Yannis Assael, Chris Dyer]

Para esta práctica, se le proporcionará un cuaderno de iPython parcialmente completado, un entorno de computación de Python basado en la web interactivo que nos permite mezclar texto, código y parcelas interactivas.

Entrenaremos modelos Word2Vec en TED Talk y Data Wikipedia, utilizando la implementación de Word2Vec incluida en el paquete Python gensim . Después de entrenar a los modelos, analizaremos y visualizaremos las integridades aprendidas.

Configuración e instalación

En una estación de trabajo de laboratorio, clone el repositorio práctico y ejecute el . install-python.sh shell script en un terminal para instalar Anaconda con Python 3, y los paquetes requeridos para esto práctico.

Ejecute ipython notebook en el directorio de repositorio y abra el cuaderno practical.ipynb en su navegador.

Preliminares

Preprocesamiento

El código para descargar el conjunto de datos y el preprocesamiento se preescribe para ahorrar tiempo. Sin embargo, se espera que necesite realizar una tarea de este tipo en prácticas futuras, dados los datos sin procesar. Léelo y asegúrese de entenderlo. A menudo, uno usa una biblioteca como nltk para simplificar esta tarea, pero no lo hemos hecho aquí y, en su lugar, optamos por usar expresiones regulares a través del módulo re de Python.

Frecuencias de palabras

Haga una lista de las palabras más comunes y sus recuentos de ocurrencias. Eche un vistazo a las 40 palabras principales. Es collections Counter desee utilizar la clase CountVectorizer sklearn.feature_extraction.text

Tome las 1000 palabras principales y traza un histograma de sus recuentos. El código de trazado para un histograma interactivo ya se da en el cuaderno.

Handin: Muestre el histograma de distribución de frecuencia.

Word de entrenamiento2Vec

Ahora que tenemos una lista procesada de oraciones, ejecutemos la capacitación Word2Vec. Comience leyendo la documentación Gensim para Word2Vec en https://radimrehurek.com/gensim/models/word2vec.html, para descubrir cómo usar la clase Word2Vec . Aprender incrustaciones en $ mathbb r^{100} $ usando CBOW (que es el valor predeterminado). Otras opciones deben ser predeterminadas excepto min_count=10 para que se ignoren las palabras poco frecuentes. El proceso de capacitación debe tomar menos de medio minuto.

Si su instancia Word2Vec entrenada se llama model_ted , debería poder verificar el tamaño del vocabulario usando len(model_ted.vocab) , que debería ser alrededor de 14427. Intente usar el método most_similar() para devolver una lista de las palabras más similares a "hombre" y "computadora".

Handin: Encuentra algunas palabras más con vecinos interesantes y/o sorprendentes más cercanos.

Handin: Encuentra un grupo interesante en la trama T-SNE.

Opcional, para estudiantes entusiastas: intente recuperar manualmente dos vectores de palabras utilizando el operador de indexación como se describe en la documentación de Gensim, luego a la computadora sus distancias de coseno (recuerde que se define como $ d (x, y) = frac { langle x, y rangle} {| x || y |} $ ). Puede estar interesado en np.dot() y np.linalg.norm() , consulte la documentación Numpy para más detalles. Compare esto con la distancia calculada por las funciones de Gensim.

Comparación con vectores capacitados en datos Wikitext-2

Hemos proporcionado código de descarga/preprocesamiento (similar al código anterior) para el conjunto de datos Wikitext-2. El código utiliza una submuestra aleatoria de los datos, por lo que es comparable en tamaño a los datos de TED Talk.

Repita el mismo análisis que el anterior pero en este conjunto de datos.

Handin: Encuentra algunas palabras con vecinos más cercanos más cercanos.

Handin: Encuentra un grupo interesante en la trama T-SNE.

Handin: ¿Hay alguna diferencia notable entre los incrustaciones aprendidas sobre los datos en comparación con los aprendidos en los datos de TED Talk?

(Opcional, para estudiantes entusiastas) Clúster

Si tiene tiempo extra, intente realizar una agrupación de K-means (por ejemplo, usando sklearn.cluster.kmeans ) en los incrustaciones, sintonizando la cantidad de grupos hasta que obtenga grupos interesantes o significativos.

A mano

Vea el " handin" en negrita: "Partes arriba. En papel o verbalmente, muestre un demostrador práctico su respuesta a estos para que se firmen.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-19
tamaño 15.36MB
Proviene de Github

Aplicaciones relacionadas

grok 1

2024-11-01
Máquinas locas 1

2022-09-01
Paseo 1

2022-08-31
Voltaje Episodio 1

2022-08-31
Karma: Capítulo 1

2022-07-30
Gigante de la industria 1

2022-07-27

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo