내용물
- 저장소 이름
- 프로젝트 제목
- 프로젝트에 대한 간단한 설명
- 프로젝트의 목표
- 데이터 세트의 이름
- 데이터 세트에 대한 설명
- 이 데이터 세트를 사용하는 프로젝트 목표
- 데이터 세트의 크기
- 조사의 일부로 사용되는 알고리즘
- 프로젝트 요구 사항
- 프로젝트 사용
- 사용자가 사용해야하는 챗봇 아키텍처
- 저자
저장소 이름
SmartChat-Conversational-Chatbot
프로젝트 제목
SmartChat : 상황을 인식하는 대화 에이전트
프로젝트에 대한 간단한 설명
대화에서 컨텍스트 및 주제 교대에 효과적으로 적응할 수있는 챗봇을 개발하고 Stanford 질문에 대한 답변 데이터 세트를 활용하여 정보 및 관련 응답을 제공하여 사용자 만족도 및 참여를 증가시킵니다.
프로젝트의 목표
사용자에게 친숙한 웹 또는 앱 인터페이스를 만들어 사용자가 만족도가 높은 등급으로 챗봇과 자연스럽고 일관된 대화를 나눌 수 있습니다.
데이터 세트의 이름
이 프로젝트에 사용 된 데이터 세트는 Stanford 질문 답변 데이터 세트 입니다.
데이터 출처 : Kaggle
데이터 세트 유형 : 텍스트
데이터 세트에 대한 설명
스탠포드 질문 응답 데이터 세트 (Squad)는 Wikipedia 기사 세트에서 크라우드 노동자들이 제기 한 질문으로 구성된 독해 데이터 세트입니다. 모든 질문에 대한 답은 해당 읽기 구절에서 텍스트 또는 스팬의 세그먼트입니다. 500 개 이상의 기사에는 10 만 개 이상의 질문 응답 쌍이 있습니다. 자세한 내용은 https://rajpurkar.github.io/squad-explorer/에서 확인할 수 있습니다.
이 데이터 세트를 사용하는 프로젝트 목표
- 이 프로젝트의 목표는 다중 회전 대화를 수행하고 상황에 적응하며 다양한 주제를 처리 할 수있는 챗봇을 개발하는 것입니다.
데이터 세트의 크기 :
- 데이터 세트에는 2 개의 JSON 파일이 있습니다. 하나는 훈련을위한 것이고 다른 하나는 테스트를위한 것입니다.
- DEV-V1.1.JSON-4.9MB
- Train-V1.1.JSON-30.3 MB
조사의 일부로 사용되는 알고리즘
- 2 개의 다른 아키텍처가 사용됩니다.
- LORA 및 PEFT를 사용한 GPT2- 미디어 아키텍처
- 버트 (버트-베이스-배
프로젝트 요구 사항
- python3
- 데이터 세트
- 토치
- PEFT
- 변압기
- 평가하다
- SAFETENSORS
- Numpy
- 팬더
- matplotlib
- Scikit-Learn
- 슈타본
- nltk
- 루즈-점수
- 연지
- Gradio
- TQDM
프로젝트 사용
- Goto Squad Dataset Preprocessing 및
train-v1.1.json 및 dev-v1.1.json 파일이 있는지 확인하십시오.- 당신이 그것들이없는 경우, 여기에서 여기와 여기에서 다운로드 할 수 있습니다.
- Goto Squad Dataset Preprocessing 파일 및 모든 셀을 실행합니다.
- BERT (Bert-Base-Ancased) 접근 방식의 결과를 실행하고 보려면 Squad_chatbot_using_bert-base-unced_restme.md 파일에 제공된 지침을 살펴보십시오.
- GPT (LORA 및 PEFT를 사용한 GPT2-MEDIUM) 접근 방식을 실행하고 보려면 Squad_chatbot_using_gpt2-medium_readme.md 파일에 제공된 지침을 살펴보십시오.
사용자가 사용해야하는 챗봇 아키텍처
- 실제로, 두 챗봇은 모두 잘 작동합니다.
- squad_using_gpt2-medium은 답을 생성하지만 대부분의 시간에는 문제가 있습니다.
- 관찰 및 기술 세부 정보에 대한 자세한 내용은 교육 및 검증 파일을 참조하십시오.
- squad_using_bert-base-uncased는 예상대로 잘 작동합니다.
- 마지막 결론은 다음과 같습니다. 사용자는 모든 챗봇을 사용할 수 있습니다. 그러나 완벽한 답변의 답변을 위해 Squad_using_bert-Base-incased를 사용하십시오.
저자