Repositori ini berisi semua sumber daya untuk lokakarya Machine Learning Days yang diterapkan memenuhi diri buatan Anda: menghasilkan teks yang terdengar seperti Anda.
Dalam lokakarya ini, peserta ditugaskan untuk mengunduh log obrolan mereka sendiri dan membangun bot obrolan yang menghasilkan teks yang mirip dengan tulisan mereka. Sebagai alternatif untuk menggunakan log obrolan, kami menyediakan sejumlah dataset percakapan (dan kumpulan data non-konversi lainnya) dalam repositori ini.
Jangan ragu untuk bergabung dengan gitter kami selama lokakarya:
Temukan Slide Workshop di sini.
Lokakarya ini terbagi dalam 3 tugas. Anda dapat menjalankan setiap tugas secara lokal (dengan mengkloning repositori ini) atau dengan menjalankan Colab Notebook (lihat tautan di bawah). Jika Anda berjalan secara lokal, pastikan Anda memiliki akses ke GPU dan Anda menjalankan Python 3.6+ (juga pastikan Anda memiliki ruang penyimpanan yang cukup). Instruksi yang lebih rinci disediakan di subfolder yang berbeda.
Fine-Tune GPT-2 pada berbagai set data (termasuk tweet, puisi, kode pemrograman, catur, musik dan banyak lagi!). Terima kasih kepada @Manueth untuk menyusun dataset!
➡️ Baca lebih lanjut
Kami menggunakan pendekatan transfer gaya yang sama untuk melatih model percakapan dari log obrolan kami. Anda dapat menggunakan Chatistics untuk menguraikan log obrolan Anda sendiri atau Anda dapat menggunakan beberapa sumber daya yang disediakan. Terima kasih kepada @masterscrat untuk menyusun dataset percakapan!
➡️ Baca lebih lanjut
Kami memperluas pendekatan dalam Tugas 2 dengan memperkenalkan pembelajaran multi-tugas, meningkatkan preprocessing data, dan menambahkan tipe token.
➡️ Baca lebih lanjut