コンテンツ
- リポジトリ名
- プロジェクトのタイトル
- プロジェクトの簡単な説明
- プロジェクトの目的
- データセットの名前
- データセットの説明
- このデータセットを使用したプロジェクトの目標
- データセットのサイズ
- 調査の一部として使用されるアルゴリズム
- プロジェクトの要件
- プロジェクトの使用
- ユーザーがどのチャットボットアーキテクチャを使用するか
- 著者
リポジトリ名
SmartChat-Conversational-Chatbot
プロジェクトのタイトル
SmartChat:コンテキストに対応する会話エージェント
プロジェクトの簡単な説明
会話のコンテキストとトピックのシフトに効果的に適応できるチャットボットを開発し、スタンフォードの質問に応答してデータセットを活用して、情報に基づいた関連する応答を提供し、それによってユーザーの満足度とエンゲージメントを高めます。
プロジェクトの目的
ユーザーがチャットボットとの自然でコヒーレントな会話を可能にするユーザーフレンドリーなWebまたはアプリインターフェイスを作成し、満足度の高い評価を得ることができます。
データセットの名前
このプロジェクトで使用されているデータセットは、Stanford質問データセットに回答しています。
データソース: Kaggle
データセットのタイプ:テキスト
データセットの説明
Stanfordの質問Dataset(Squad)は、ウィキペディアの記事のセットでクラウドワーカーが提起した質問で構成される読解データセットです。すべての質問に対する答えは、対応する読み取りパッセージからのテキストまたはスパンのセグメントです。 500以上の記事には、100,000以上の質問回答ペアがあります。詳細については、https://rajpurkar.github.io/squad-explorer/をご覧ください。
このデータセットを使用したプロジェクトの目標
- このプロジェクトの目標は、マルチターン会話を実行し、コンテキストに適応し、さまざまなトピックを処理できるチャットボットを開発することです。
データセットのサイズ:
- データセットには2つのJSONファイルがあります。 1つはトレーニング用で、もう1つはテスト用です
- dev-v1.1.json - 4.9 Mb
- Train-V1.1.json - 30.3 MB
調査の一部として使用されるアルゴリズム
- 2つの異なるアーキテクチャが使用されます。
- LORAとPEFTを使用したGPT2-MEDIUMアーキテクチャ
- Bert(Bert-Base-Uncased)
プロジェクトの要件
- Python3
- データセット
- トーチ
- peft
- トランス
- 評価する
- セーフテンサー
- numpy
- パンダ
- matplotlib
- Scikit-Learn
- シーボーン
- nltk
- ルージュスコア
- ルージュ
- グラデーション
- TQDM
プロジェクトの使用
- GoTo Squad Dataset Preprocessingを使用し、
train-v1.1.jsonおよびdev-v1.1.jsonファイルを確実に持っていることを確認してください。- あなたがそれらを持っていない場合に備えて、あなたはそれらをこことここにダウンロードすることができます
- GOTO Squad Dataset Preprocessingファイルを使用して、すべてのセルを実行します。
- Bert(Bert-Base-Uncased)アプローチの結果を実行および表示するには、Squad_chatbot_using_bert-beras-base-uncaded_readme.mdファイルで提供される手順を確認してください。
- GPT(LORAおよびPEFTを使用してGPT2-Medium)アプローチの結果を実行および表示するには、SQUAD_CHATBOT_USING_GPT2-MED_README.MDファイルで提供される手順を確認してください。
ユーザーがどのチャットボットアーキテクチャを使用するか
- 実際、両方のチャットボットはうまく動作しています。
- squad_using_gpt2-mediumは答えを生成しますが、ほとんどの場合問題があります。
- 観察と技術の詳細の詳細については、トレーニングファイルと検証ファイルを参照してください。
- squad_using_bert-base-uncasedは、予想通りに非常にうまく機能しています。
- 最終的な結論は、ユーザーが任意のチャットボットを使用できることです。ただし、完璧な生成の回答のために、Squad_using_bert-base-oncasedを使用してください。
著者