このリポジトリには、Applied Machine Learning Days Workshopのすべてのリソースがあなたの人工自己を満たしています。あなたのように聞こえるテキストを生成します。
このワークショップでは、参加者は独自のチャットログをダウンロードし、執筆と同様のテキストを生成するチャットボットを作成するように任されています。チャットログを使用する代わりに、このリポジトリに他の多くの会話(および非コンバージョンデータセット)データセットを提供します。
ワークショップ中にお気軽に私たちのギッターに参加してください:
ここでワークショップのスライドを見つけてください。
ワークショップは3つのタスクに分割されています。各タスクをローカルで(このリポジトリのクローニングで)実行するか、Colabノートブックを実行することで実行できます(以下のリンクを参照)。ローカルで実行する場合は、GPUにアクセスできることを確認し、Python 3.6+を実行していることを確認してください(十分なストレージスペースがあることも確認してください)。より詳細な指示は、さまざまなサブフォルダーで提供されています。
さまざまなデータセット(ツイート、詩、プログラミングコード、チェス、音楽などを含む)でGPT-2を微調整します。データセットをコンパイルしてくれた@manuethに感謝します!
➡️続きを読んでください
同じアプローチのスタイル転送を使用して、チャットログから会話モデルをトレーニングします。チャットを使用して独自のチャットログを解析するか、提供されたリソースの一部を使用できます。会話のデータセットをコンパイルしてくれた@masterscratに感謝します!
➡️続きを読んでください
マルチタスク学習を導入し、データの前処理を改善し、トークンタイプを追加することにより、タスク2のアプローチを拡張します。
➡️続きを読んでください