이 저장소에는 Applied Machine Learning Days Workshop을위한 모든 리소스가 포함되어 있습니다. 인공 자아를 만나십시오.
이 워크숍에서 참가자는 자신의 채팅 로그를 다운로드하고 글쓰기와 유사한 텍스트를 생성하는 채팅 봇을 구축해야합니다. 채팅 로그 사용을위한 대안으로, 우리는이 저장소에 여러 다른 대화 (및 비 변환 데이터 세트) 데이터 세트를 제공합니다.
워크샵에서 Gitter에 합류하십시오.
워크숍 슬라이드를 여기에서 찾으십시오.
워크숍은 3 가지 작업으로 나뉩니다. 각 작업을 (이 저장소를 복제함으로써) 또는 Colab 노트북 (아래 링크 참조)을 실행하여 각 작업을 실행할 수 있습니다. 로컬로 운영되는 경우 GPU에 액세스 할 수 있고 Python 3.6+를 실행하고 있는지 확인하십시오 (또한 충분한 저장 공간이 있는지 확인하십시오). 더 자세한 지침은 다른 서브 폴더에 제공됩니다.
다양한 데이터 세트에서 GPT-2 (트윗,시, 프로그래밍 코드, 체스, 음악 등)에 대한 GPT-2. 데이터 세트를 컴파일 해주신 @manueth에게 감사드립니다!
➡️ 더 읽으십시오
우리는 채팅 로그에서 대화 모델을 훈련시키기 위해 스타일 전송의 동일한 접근 방식을 사용합니다. Chatistics를 사용하여 자신의 채팅 로그를 구문 분석하거나 제공된 리소스 중 일부를 사용할 수 있습니다. 대화 데이터 세트를 컴파일 한 @masterscrat에게 감사드립니다!
➡️ 더 읽으십시오
멀티 태스킹 학습을 도입하고 데이터 전처리 개선 및 토큰 유형을 추가하여 Task 2의 접근 방식을 확장합니다.
➡️ 더 읽으십시오