Unduh practical 1 - Unduh Kode Sumber practical 1

practical 1

Kode sumber lainnya

1.0.0

Unduh

Praktis 1: Word2Vec

[Brendan Shillingford, Yannis Assael, Chris Dyer]

Untuk praktis ini, Anda akan diberikan notebook Ipython yang sebagian lengkap, lingkungan komputasi Python berbasis web interaktif yang memungkinkan kami untuk mencampur teks, kode, dan plot interaktif.

Kami akan melatih model Word2VEC pada data TED Talk dan Wikipedia, menggunakan implementasi Word2VEC yang termasuk dalam paket Python gensim . Setelah melatih model, kami akan menganalisis dan memvisualisasikan embeddings yang dipelajari.

Pengaturan dan Instalasi

Pada workstation lab, klon repositori praktis dan jalankan . install-python.sh skrip shell di terminal untuk menginstal anaconda dengan python 3, dan paket yang diperlukan untuk praktis ini.

Jalankan ipython notebook di Direktori Repositori dan buka Notebook practical.ipynb di browser Anda.

Persiapan

Preprocessing

Kode untuk mengunduh dataset dan preprocessing itu telah ditulis untuk menghemat waktu. Namun, diharapkan bahwa Anda harus melakukan tugas seperti itu dalam praktik masa depan, diberi data mentah. Bacalah dan pastikan Anda memahaminya. Seringkali, seseorang menggunakan pustaka seperti nltk untuk menyederhanakan tugas ini, tetapi kami belum melakukannya di sini dan sebaliknya memilih untuk menggunakan ekspresi reguler melalui modul re Python.

Frekuensi kata

Buatlah daftar kata -kata yang paling umum dan jumlah kejadiannya. Lihatlah 40 kata teratas. Anda mungkin ingin menggunakan kelas CountVectorizer Modul sklearn.feature_extraction.text Modul atau kelas Counter Modul collections .

Ambil 1000 kata teratas, dan plot histogram penghitungan mereka. Kode plot untuk histogram interaktif sudah diberikan dalam notebook.

Handin: Tunjukkan histogram distribusi frekuensi.

Pelatihan Word2Vec

Sekarang kita memiliki daftar kalimat yang diproses, mari kita jalankan pelatihan Word2Vec. Mulailah dengan membaca dokumentasi gensim untuk Word2Vec di https://radimrehurek.com/gensim/models/word2vec.html, untuk mengetahui cara menggunakan kelas Word2Vec . Belajar embeddings di $ mathbb r^{100} $ Menggunakan CBOW (yang merupakan default). Opsi lain harus default kecuali min_count=10 sehingga kata -kata yang jarang diabaikan. Proses pelatihan harus memakan waktu kurang dari setengah menit.

Jika instance Word2Vec terlatih Anda disebut model_ted , Anda harus dapat memeriksa ukuran kosa kata menggunakan len(model_ted.vocab) , yang seharusnya sekitar 14427. Coba gunakan metode most_similar() untuk mengembalikan daftar kata yang paling mirip dengan "man" dan "computer".

Handin: Temukan beberapa kata lagi dengan tetangga terdekat yang menarik dan/atau mengejutkan.

Handin: Temukan cluster yang menarik di plot T-SNE.

Opsional, untuk siswa yang antusias: Cobalah secara manual mengambil dua vektor kata menggunakan operator pengindeksan seperti yang dijelaskan dalam dokumentasi Gensim, lalu komputer jarak cosinus mereka (ingat itu didefinisikan sebagai $ d (x, y) = frac { langle x, y rangle} {| x || y |} $ ). Anda mungkin tertarik pada np.dot() dan np.linalg.norm() , lihat dokumentasi numpy untuk detailnya. Bandingkan ini dengan jarak yang dihitung oleh fungsi Gensim.

Perbandingan dengan vektor yang dilatih pada data wikuxt-2

Kami telah menyediakan kode pengunduhan/preprocessing (mirip dengan kode sebelumnya) untuk dataset WIKITEXT-2. Kode menggunakan subsampel acak dari data sehingga sebanding dalam ukuran dengan data TED Talk.

Ulangi analisis yang sama seperti di atas tetapi pada dataset ini.

Handin: Temukan beberapa kata dengan tetangga terdekat yang serupa.

Handin: Temukan cluster yang menarik di plot T-SNE.

Handin: Apakah ada perbedaan penting antara embeddings yang dipelajari pada data dibandingkan dengan yang dipelajari pada data TED Talk?

(Opsional, untuk siswa yang antusias) Clustering

Jika Anda memiliki waktu ekstra, cobalah melakukan pengelompokan K-means (misalnya menggunakan sklearn.cluster.kmeans ) pada embeddings, menyetel jumlah kelompok sampai Anda mendapatkan kelompok yang menarik atau bermakna.

Handin

Lihat bagian " Handin: " yang tebal di atas. Di atas kertas atau secara verbal, tunjukkan demonstran praktis tanggapan Anda terhadap ini untuk ditandatangani.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-19
ukuran 15.36MB
Berasal dari Github

Aplikasi Terkait

grok 1

2024-11-01
Mesin Gila 1

2022-09-01
Naik 1

2022-08-31
Tegangan Episode 1

2022-08-31
Karma: Bab 1

2022-07-30
Raksasa Industri 1

2022-07-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua