AutoTalker 다운로드 - AutoTalker 소스 코드 다운로드

AutoTalker

AI 소스 코드

1.0.0

다운로드

Autotalker?

프로젝트 데모 비디오

데모 비디오를 확인하려면 Autotalker가 작동하는 모습을 확인하십시오!

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

예

입력 프롬프트

"30 초 안에 Python과 그 응용 프로그램을 설명하십시오"

입력 이미지

출력 비디오

output_video.mp4

프로젝트 설명

견습생 프로젝트 (TAP)

21 세기의 빠르게 진화하는 환경에서, 포괄적 인 교육은 현대 사회에서 번성하는 데 필요한 기술을 가진 학생들을 준비시키는 데 가장 중요합니다. Apprentice Project (TAP)는 정부 또는 저소득 사립 학교에 등록 된 소외된 어린이들 사이에서 이러한 필수 21 세기 기술을 배양하기 위해 최선을 다하고 있습니다.

TAP는 섹션 8 등록 회사 인 Mentorme Foundation의 우산 아래에서 운영되며 Harvard University, IIM Bangalore 및 Nudge Foundation과 같은 존경 기관의 자랑스럽게 지원됩니다. Maharashtra 및 Delhi의 정부와 공식적인 파트너로서 Tap은 혁신적인 챗봇을 통해 31,000 명 이상의 어린이들에게 큰 영향을 미칩니다.

문제 진술

인도 전역의 저소득층 지역 사회에서 1 억 명에 이르는 중학생과 고등학교 학생들은 사회 및 정서 학습 (SEL) 및 금융 문해력을 포함한 21 세기 기술이 부족합니다. 전통적인 시험 중심의 공공 교육 시스템은이 문제를 악화시켜 인도 교육 시스템을 졸업하는 2 명의 어린이 중 1 명 중 1 명이 이러한 중요한 기술이 없기 때문에 실업 할 수없는 것으로 간주된다는 놀라운 통계로 이어집니다.

금융 문해력 통계 :
- 인도 십대 학생들의 16.7%만이 기본적인 재정적 문해력을 가지고 있습니다.
- 인도 성인 인구의 27%만이 재정적으로 문맹으로 간주됩니다.

UN 지속 가능한 개발 목표 (SDG)

TAP는 여러 유엔 SDG와 미션을 정렬합니다.

목표 1 : 빈곤이 없습니다
목표 2 : 제로 굶주림
목표 3 : 건강과 복지
목표 4 : 양질의 교육
목표 8 : 괜찮은 일과 경제 성장

현재 시스템

Mentorme Foundation에서 운영되는 Apprentice Project (TAP)는 인공 지능 구동 WhatsApp 챗봇 인 TAP Buddy를 통해 소외된 학생들에게 권한을 부여합니다. Tap Buddy는 비디오 기반 선택 과목을 제공하며 개인화 된 (ML- 러드) 및 AI 봇 기반 뉘그스 및 콘텐츠를 사용하여 독립적 인 프로젝트를 통해 학생들을 안내합니다. 자체 학습 프로젝트 비디오는 창의성, 자신감, 자기 인식, 의사 소통 및 문제 해결, 정신 장벽을 깨고 성장 사고 방식을 심어줍니다.

도전과 혁신

TAP의 챗봇 사용이 계속 커짐에 따라 프로젝트는 도전에 직면하고 혁신적인 솔루션을 찾습니다.

코스 제작 : AI를 활용하여 코딩 및 시각 예술과 같은 다양한 선택 과목에서 컨텐츠를 생성하여 수동 시간 제약으로 인해 대량 비디오 생성의 한계를 극복하기위한 것을 목표로합니다.
개인화 된 학습 : AI를 사용하여 개별 학습 스타일 및 기술 수준에 맞는 개인화 된 코딩 자습서 또는 아트 프로젝트 가이드를 만듭니다. Advanced ML/Open AI 분석은 학습자의 진행 상황을 기반으로 컨텐츠를 조정하여 맞춤형 학습 경험을 보장합니다.
컨텐츠 제작 : AI를 활용하여 코드 스 니펫, 템플릿 또는 미술 프로젝트를위한 아이디어를 생성하고, 학생들을 기술 수준으로 안내하고 탐사 옵션을 제안합니다.
예술적 탐구 : 어린이의 기술 수준을 기반으로하는 기술과 스타일을 추천하고, 작품을 유명한 예술가 나 예술 운동과 비교하여 예술적 지평을 넓 힙니다.
창의적 코딩 : AI를 사용하여 아이디어를 브레인 스토밍하고 혁신적이고 예술적인 코딩 프로젝트에 영감을줍니다.

접근 및 솔루션

TAP가 직면 한 문제를 해결하기위한 나의 접근 방식은 자연 언어 처리 (NLP), 인공 지능 (AI) 및 기계 학습 (ML)을 포함한 최첨단 기술을 활용하여 학생들의 교육 경험을 향상시키는 탭의 구성 요소 인 Autotalker를 개발하는 것입니다.

Autotalker는 텍스트 음성 변환을위한 Suno Bark TTS, Google의 생성 AI Python SDK (Gemini Pro), 텍스트 생성을위한 Google의 AI Python SDK (Gemini Pro) 및 비디오의 얼굴 움직임으로 립 동기화 오디오를위한 Sadtalker와 같은 고급 AI 모델 및 라이브러리를 사용합니다. 이러한 기술을 통합함으로써 Autotalker는 텍스트 프롬프트 및 이미지에서 매력적이고 유익한 비디오 컨텐츠를 만들 수 있습니다.

또한이 프로젝트는 개인화 된 학습, 컨텐츠 제작 지원 및 언어 지원과 같은 기능을 통합하여 다양한 학습 요구와 선호도를 충족시킵니다. Autotalker는 AI의 힘을 활용함으로써 교육자와 학생들 모두가 개별 요구 사항에 맞게 조정 된 고품질 교육 컨텐츠에 액세스 할 수 있도록하여 필수 21 세기 기술의 개발을 촉진합니다.

이 혁신적인 솔루션을 통해 TAP는 교육 환경에 혁명을 일으키고, 양질의 학습 자원에 대한 접근의 격차를 해소하고, 소외된 지역 사회의 학생들에게 디지털 시대에 대한 잠재력을 최대한 활용할 수 있도록 힘을 실어주는 것을 목표로합니다.

에 대한

이 프로젝트는 기술을 활용하여 새로운 과정을 만들고, 기존 과정을 개인화하며, 평가 프로세스를 향상시켜 궁극적으로 학생들의 21 세기 기술 개발에 기여하는 데 중점을 둡니다. TAP의 구성 요소 인 Autotalker는 텍스트 프롬프트 및 이미지에서 립싱 된 비디오를 생성 할 때 AI의 기능을 보여 주어 학생들의 전반적인 교육 경험을 향상시킵니다.

다음을 포함하여 여러 라이브러리를 사용합니다.

Suno Bark TTS : 텍스트 프롬프트에서 오디오를 생성하는 데 사용되는 텍스트 음성 변환 라이브러리.
PYDUB : 오디오 파일 및 형식을 처리하기위한 오디오 조작 라이브러리.
Google.generativeai (Gemini Pro) : Google의 생성 AI Python SDK는 텍스트 생성에 사용되었습니다.
Sadtalker : 비디오의 얼굴 움직임과 오디오를 동기화하는 데 사용되는 립싱크 모델.
Openai Whisper : 음성 특성의 사용자 정의를 가능하게하는 음성-텍스트 전환을위한 라이브러리.
Spotify Pedalboard : 오디오 파일의 품질 및 효과를 향상시키기위한 오디오 향상 라이브러리.
Moviepy : 비디오 처리 및 편집 작업을 용이하게하는 비디오 편집 라이브러리.
Pytorch : Sadtalker의 기능을 포함한 다양한 기계 학습 작업에 사용되는 딥 러닝 프레임 워크.
FFMPEG : 오디오 및 비디오 파일과 같은 멀티미디어 데이터를 처리하는 데 사용되는 멀티미디어 프레임 워크.
포옹 페이스 트랜스포머 : 사전 훈련 된 모델과 자연어 처리 작업을위한 다양한 유틸리티를 제공하는 라이브러리.
BetterTransformer : CPU 및 GPU에서 고성능으로 변압기 모델의 배치를 가속화하기위한 생산 준비가 빠른 경로. 빠른 경로 기능은 Pytorch Core NN을 기반으로 한 모델에 투명하게 작동합니다.
Numpy : 대형 다차원 배열 및 행렬을 처리하기위한 강력한 수치 계산 라이브러리.
Gradio : 머신 러닝 모델 주변에 사용자 정의 가능한 UI 구성 요소를 만들기위한 사용자 친화적 인 라이브러리로 웹 인터페이스를 통한 모델과 쉽게 배포하고 상호 작용할 수 있습니다.

특징

텍스트 음성 변환 : Suno Bark TTS를 사용하여 텍스트 프롬프트를 오디오 파일 (WAV 형식)으로 변환합니다.
오디오 조작 : 오디오 조작 작업에 Pydub를 사용하고 오디오 품질 향상 및 원하는 효과를 적용합니다.
생성 AI 텍스트 : 텍스트 생성을 위해 Google의 생성 AI Python SDK (Gemini Pro)를 활용하여 다양하고 상황에 맞는 프롬프트를 제공합니다.
Lip Syncing : Lip-Syncing 모델 인 Sadtalker를 통합하여 생성 된 오디오를 비디오의 얼굴 움직임과 동기화합니다.
Speech-to-Text 변환 : 음성 특성의 사용자 정의를 허용하는 음성 텍스트 전환을위한 Openai Whisper를 통합합니다.
오디오 향상 : Spotify 페달 보드를 사용하여 오디오 파일에 효과를 향상시키고 적용하여 전반적인 오디오 품질을 향상시킵니다.
비디오 편집 : 비디오 편집 라이브러리 인 Moviepy를 구현합니다. 비디오 처리 및 최종 립시 동성 비디오 제작을 포함하여 작업 편집 작업.
딥 러닝 프레임 워크 : Sadtalker의 기능을 실행하는 데 필수적인 딥 러닝 기능을 위해 Pytorch를 활용합니다.
멀티미디어 처리 : 처리 중 오디오 및 비디오 파일과 같은 멀티미디어 데이터를 처리하기 위해 멀티미디어 프레임 워크 인 FFMPEG를 사용합니다.
자연어 처리 : 포옹 페이스 변압기를 통합하여 자연어 처리 작업을위한 미리 훈련 된 모델과 유틸리티를 제공합니다.
변압기 모델의 빠른 경로 : CPU 및 GPU 모두에 변압기 모델의 가속화 된 배포를위한 생산 준비가 빠른 경로 인 BetterTransformer를 통합합니다.
수치 계산 : 특히 대형 다차원 배열 및 행렬을 처리하기 위해 강력한 수치 계산을 위해 Numpy에 의존합니다.
사용자 친화적 인 UI 구성 요소 : 사용자 친화적 인 라이브러리 인 Gradio를 통합하여 머신 러닝 모델 주변에 사용자 정의 가능한 UI 구성 요소를 만들어 웹 인터페이스를 통해 쉽게 배포하고 상호 작용합니다.
언어 지원 : 영어, 중국어 (단순화), 프랑스어, 독일어, 힌디어, 이탈리아어, 일본어, 한국, 폴란드어, 포르투갈어, 러시아어, 스페인어 및 터키를 포함한 여러 언어를 지원합니다.
자막 지원 : 현재 영어에만 사용할 수 있습니다.

이러한 기능은 영어로 된 다양한 언어 및 자막을 지원하여 입력 텍스트 프롬프트 및 이미지의 립 동시 비디오 생성에 종합적으로 기여합니다.

시작하기

전제 조건

파이썬 3.10.6
Google AI의 API 키.
FFMPEG 설치.
Pytorch가 설치되었습니다. 시스템이 CUDA를 지원하는지 확인하십시오.
Imagemagick 설치. 이것은 moviepy에 필요합니다.
Sadtalker가 설치되었습니다.
참고 : GPU에 CUDA를 지원하여 최소 4GB VRAM을 보유하고 있는지 확인하십시오.

설치

Python 3.10.6을 설치하십시오.
- Python 3.10.6을 다운로드하여 설치하십시오. 버전 3.11 및 3.12는 지원되지 않습니다.
FFMPEG 설치 :
- 시스템에 대한 적절한 지침을 따르십시오.
Imagemagick 설치 :
- Imagemagick을 다운로드하여 설치하십시오.

Autotalker 저장소를 복제하십시오.

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

모델과 가중치로 Sadtalker를 다운로드하십시오.
```
python download_models.py
```
위의 명령을 실행하고 "다운로드 완료"가 표시 될 때까지 기다리십시오. 이것은 필요한 모델 및 가중치와 함께 Sadtalker를 다운로드합니다.
가상 환경 생성 :
```
python -m venv venv
```

가상 환경 활성화 :

Linux/Mac에서 :
```
 source venv/bin/activate
```
Windows에서 :
```
. v env S cripts a ctivate
```

종속성 설치 :
```
pip install -r requirements.txt
```

Cuda로 Pytorch를 설치하십시오.

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

이제 프로젝트 환경을 성공적으로 설정하여 GPU가 지정된 요구 사항을 충족하도록합니다.

용법

프로젝트 구조

프로젝트에는 다음과 같은 구조가 있습니다.

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Autotalker를 실행하고 Gradio Web UI를 오픈하는 단계 :

가상 환경 활성화 :
- 이전에 생성 된 가상 환경을 활성화하십시오.
Gemini Pro API 키 구성 :
- main.py 파일을 엽니 다.
- 라인을 찾으십시오 : genai.configure(api_key="add your key here") .
- 실제 Gemini Pro API 키로 "add your key here" 교체하십시오.
메인 스크립트 및 Gradio Web UI 실행 :
- 제공된 Gradio 코드 ( iface.launch() 파트)를 스크립트에서 복사하십시오.
Autotalker를 실행하고 Gradio :
- 가상 환경이 활성화 된 것과 동일한 터미널에서 Gradio Web UI와 함께 Autotalker 스크립트를 실행하십시오.
```
python main.py
```
액세스 그라디오 웹 UI :
- 스크립트를 실행 한 후 Gradio는 웹 UI가 호스팅되는 링크 (일반적으로 LocalHost)를 제공합니다. 웹 브라우저에서 해당 링크를 엽니 다.
인터페이스 탐색 :
- 이제 Gradio Web UI 인터페이스에 액세스 할 수 있습니다.
- 텍스트 상자, 라디오 버튼, 슬라이더 및 이미지 업로드 옵션과 같은 제공된 입력 구성 요소와 상호 작용하십시오.
제출 및 대기 :
- "시작 인터페이스"또는 이와 유사한 버튼을 클릭하여 입력을 제출하십시오.
- Gradio는 입력을 처리하고 출력을 생성하며 웹 UI에 결과를 표시합니다.
출력 검토 :
- 출력은 구성에 따라 자막이 있거나없는 비디오 일 수 있습니다.
자막 탐색 (활성화 된 경우) :
- 자막 지원을 활성화 한 경우 비디오 용 자막을 탐색하십시오.
반복 및 실험 :
- 다양한 입력, 프롬프트 및 매개 변수를 실험하여 다양한 출력을 생성하십시오.
Close Gradio UI :
- 완료되면 Gradio Web UI를 닫으십시오.

이러한 결합 된 단계를 수행함으로써 자동으로 Autotalker를 실행하고 Gradio Web UI와 상호 작용하며 생성 된 립싱 된 비디오를 경험할 수 있습니다.

기여

프로젝트에 기여하는 데 관심을 가져 주셔서 감사합니다! 원활하고 협력적인 경험을 보장하려면 다음과 같은 지침을 따르십시오.

저장소 포크 :
- 이 저장소를 GitHub 계정으로 포킹하여 시작하십시오.

저장소 복제 :

git clone https://github.com/YourUsername/AutoTalker.git

지점 만들기 :
- 각 기부금에 대해 설명 이름을 가진 새 지점을 만듭니다.
```
git checkout -b feature/your-feature-name
```
변경 :
- 향상 또는 수정 사항을 구현하십시오. 변경 사항이 프로젝트 목표와 일치하는지 확인하십시오.
변경 변경 :
- 명확하고 간결한 커밋 메시지로 변경 사항을 커밋하십시오.
```
git commit -m " Add your commit message here "
```
푸시 변경 :
- 변경 사항을 포크 리포지토리로 밀어 넣으십시오.
```
git push origin feature/your-feature-name
```
풀 요청 생성 :
- 포크 리포지토리에서 메인 저장소로 풀 요청을 엽니 다.
- 변경 사항에 대한 자세한 정보를 제공하여 목적과 영향을 설명합니다.
검토 및 공동 작업 :
- 토론에 참여하고, 피드백에 응답하고, 커뮤니티와 협력하여 기여를 개선하십시오.
스쿼시 커밋 (필요한 경우) :
- 풀 요청에 여러 커밋이 포함 된 경우, 잘 구조화 된 단일 커밋에 스쿼시를 고려하십시오.
병합 :
- 풀 요청이 승인되면 기본 저장소로 병합됩니다.
도움이 필요한 영역 : 인간과 유사한 TTS 구현

중대한 영향을 미치는 데 관심이 있다면 인도 지역 언어를 포함한 다양한 언어 세트에 대한 인간과 같은 텍스트 음성 (TTS)을 구현하는 데 기여하십시오. 남성과 여성 목소리 모두에 대한 TTS 기능을 향상시키는 데 중점을 둡니다.

인간과 유사한 TTS 구현을위한 지원 언어 :

아랍어 (AR)
벵골어 (BN)
불가리아어 (BG)
크로아티아 (HR)
체코 (CS)
덴마크 (DA)
네덜란드어 (NL)
에스토니아 (ET)
핀란드 (FI)
그리스어 (el)
히브리어 (IW)
헝가리어 (hu)
인도네시아 (ID)
라트비아 (LV)
리투아니아 (LT)
노르웨이 (No)
루마니아어 (RO)
세르비아어 (SR)
슬로바키아 (SK)
슬로베니아 (SL)
스와 할리 (SW)

인도 지역 언어에 대한 추가 초점 :

인도의 다양한 언어 환경을 감안할 때 TT의 인도 지역 언어를 지원하기위한 기여는 매우 중요합니다. 이러한 언어에는 다음이 포함될 수 있지만 이에 국한되지는 않습니다.

힌디 어
타밀 사람
텔루구 어
칸나다어
말라 얄 람어
펀 자브
구자라트
마라 티
벵골 사람
오디아
아사 메스
우르두어

이러한 언어에 대한 TT를 구현하려는 노력은 특히 다양한 언어 적 배경을 가진 지역에서 더 광범위한 청중이 교육 콘텐츠를 이용할 수 있도록하는 데 크게 기여할 것입니다.

인간과 같은 TTS 구현에 대한 이러한 중요한 기여를 고려해 주셔서 감사합니다! 귀하의 작업은 다양한 언어 적 배경의 학습자에게 교육 내용을 포함하고 접근 할 수있는 중요한 역할을합니다. ?

특허

이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다.

감사의 말

이 프로젝트는 다음과 같은 오픈 소스 프로젝트와 그 기고자를 인정합니다.

Google AI Python SDK : Google AI Python SDK를 통해 개발자는 Google의 최첨단 생성 AI 모델 (Gemini 및 Palm)을 사용하여 AI 기반 기능 및 응용 프로그램을 구축 할 수 있습니다.
Sadtalker : [CVPR 2023] Sadtalker : 양식화 된 오디오 중심의 단일 이미지 말하는 얼굴 애니메이션에 대한 현실적인 3D 모션 계수 학습. Opentalker의 프로젝트.
페달 보드 : Spotify가 개발 한 오디오 작업을위한 파이썬 라이브러리.
Whisper : OpenAI의 오픈 소스 프로젝트 인 대규모 약한 감독을 통한 강력한 음성 인식.
얼굴을 껴안아 변압기 : ? 변압기 : Pytorch, Tensorflow 및 Jax를위한 최첨단 머신 러닝.
포옹으로 가속화하십시오 : 멀티 GPU, TPU, 혼합-프레임으로 Pytorch 모델을 훈련시키고 사용하는 간단한 방법.
얼굴을 껴안아 최적 : 훈련과 추론을 가속화합니까? 변압기와? 사용하기 쉬운 하드웨어 최적화 도구가있는 디퓨저.
Suno ai의 껍질 : ? 텍스트 프로모션 생성 오디오 모델.
Pytorch : 강력한 GPU 가속을 가진 파이썬의 텐서 및 동적 신경망.