데모 비디오를 확인하려면 Autotalker가 작동하는 모습을 확인하십시오!
입력 프롬프트
"30 초 안에 Python과 그 응용 프로그램을 설명하십시오"
입력 이미지

출력 비디오
21 세기의 빠르게 진화하는 환경에서, 포괄적 인 교육은 현대 사회에서 번성하는 데 필요한 기술을 가진 학생들을 준비시키는 데 가장 중요합니다. Apprentice Project (TAP)는 정부 또는 저소득 사립 학교에 등록 된 소외된 어린이들 사이에서 이러한 필수 21 세기 기술을 배양하기 위해 최선을 다하고 있습니다.
TAP는 섹션 8 등록 회사 인 Mentorme Foundation의 우산 아래에서 운영되며 Harvard University, IIM Bangalore 및 Nudge Foundation과 같은 존경 기관의 자랑스럽게 지원됩니다. Maharashtra 및 Delhi의 정부와 공식적인 파트너로서 Tap은 혁신적인 챗봇을 통해 31,000 명 이상의 어린이들에게 큰 영향을 미칩니다.
인도 전역의 저소득층 지역 사회에서 1 억 명에 이르는 중학생과 고등학교 학생들은 사회 및 정서 학습 (SEL) 및 금융 문해력을 포함한 21 세기 기술이 부족합니다. 전통적인 시험 중심의 공공 교육 시스템은이 문제를 악화시켜 인도 교육 시스템을 졸업하는 2 명의 어린이 중 1 명 중 1 명이 이러한 중요한 기술이 없기 때문에 실업 할 수없는 것으로 간주된다는 놀라운 통계로 이어집니다.
TAP는 여러 유엔 SDG와 미션을 정렬합니다.
Mentorme Foundation에서 운영되는 Apprentice Project (TAP)는 인공 지능 구동 WhatsApp 챗봇 인 TAP Buddy를 통해 소외된 학생들에게 권한을 부여합니다. Tap Buddy는 비디오 기반 선택 과목을 제공하며 개인화 된 (ML- 러드) 및 AI 봇 기반 뉘그스 및 콘텐츠를 사용하여 독립적 인 프로젝트를 통해 학생들을 안내합니다. 자체 학습 프로젝트 비디오는 창의성, 자신감, 자기 인식, 의사 소통 및 문제 해결, 정신 장벽을 깨고 성장 사고 방식을 심어줍니다.
TAP의 챗봇 사용이 계속 커짐에 따라 프로젝트는 도전에 직면하고 혁신적인 솔루션을 찾습니다.
코스 제작 : AI를 활용하여 코딩 및 시각 예술과 같은 다양한 선택 과목에서 컨텐츠를 생성하여 수동 시간 제약으로 인해 대량 비디오 생성의 한계를 극복하기위한 것을 목표로합니다.
개인화 된 학습 : AI를 사용하여 개별 학습 스타일 및 기술 수준에 맞는 개인화 된 코딩 자습서 또는 아트 프로젝트 가이드를 만듭니다. Advanced ML/Open AI 분석은 학습자의 진행 상황을 기반으로 컨텐츠를 조정하여 맞춤형 학습 경험을 보장합니다.
컨텐츠 제작 : AI를 활용하여 코드 스 니펫, 템플릿 또는 미술 프로젝트를위한 아이디어를 생성하고, 학생들을 기술 수준으로 안내하고 탐사 옵션을 제안합니다.
예술적 탐구 : 어린이의 기술 수준을 기반으로하는 기술과 스타일을 추천하고, 작품을 유명한 예술가 나 예술 운동과 비교하여 예술적 지평을 넓 힙니다.
창의적 코딩 : AI를 사용하여 아이디어를 브레인 스토밍하고 혁신적이고 예술적인 코딩 프로젝트에 영감을줍니다.
TAP가 직면 한 문제를 해결하기위한 나의 접근 방식은 자연 언어 처리 (NLP), 인공 지능 (AI) 및 기계 학습 (ML)을 포함한 최첨단 기술을 활용하여 학생들의 교육 경험을 향상시키는 탭의 구성 요소 인 Autotalker를 개발하는 것입니다.
Autotalker는 텍스트 음성 변환을위한 Suno Bark TTS, Google의 생성 AI Python SDK (Gemini Pro), 텍스트 생성을위한 Google의 AI Python SDK (Gemini Pro) 및 비디오의 얼굴 움직임으로 립 동기화 오디오를위한 Sadtalker와 같은 고급 AI 모델 및 라이브러리를 사용합니다. 이러한 기술을 통합함으로써 Autotalker는 텍스트 프롬프트 및 이미지에서 매력적이고 유익한 비디오 컨텐츠를 만들 수 있습니다.
또한이 프로젝트는 개인화 된 학습, 컨텐츠 제작 지원 및 언어 지원과 같은 기능을 통합하여 다양한 학습 요구와 선호도를 충족시킵니다. Autotalker는 AI의 힘을 활용함으로써 교육자와 학생들 모두가 개별 요구 사항에 맞게 조정 된 고품질 교육 컨텐츠에 액세스 할 수 있도록하여 필수 21 세기 기술의 개발을 촉진합니다.
이 혁신적인 솔루션을 통해 TAP는 교육 환경에 혁명을 일으키고, 양질의 학습 자원에 대한 접근의 격차를 해소하고, 소외된 지역 사회의 학생들에게 디지털 시대에 대한 잠재력을 최대한 활용할 수 있도록 힘을 실어주는 것을 목표로합니다.
이 프로젝트는 기술을 활용하여 새로운 과정을 만들고, 기존 과정을 개인화하며, 평가 프로세스를 향상시켜 궁극적으로 학생들의 21 세기 기술 개발에 기여하는 데 중점을 둡니다. TAP의 구성 요소 인 Autotalker는 텍스트 프롬프트 및 이미지에서 립싱 된 비디오를 생성 할 때 AI의 기능을 보여 주어 학생들의 전반적인 교육 경험을 향상시킵니다.
다음을 포함하여 여러 라이브러리를 사용합니다.
이러한 기능은 영어로 된 다양한 언어 및 자막을 지원하여 입력 텍스트 프롬프트 및 이미지의 립 동시 비디오 생성에 종합적으로 기여합니다.
파이썬 3.10.6
Google AI의 API 키.
FFMPEG 설치.
Pytorch가 설치되었습니다. 시스템이 CUDA를 지원하는지 확인하십시오.
Imagemagick 설치. 이것은 moviepy에 필요합니다.
Sadtalker가 설치되었습니다.
참고 : GPU에 CUDA를 지원하여 최소 4GB VRAM을 보유하고 있는지 확인하십시오.
Python 3.10.6을 설치하십시오.
FFMPEG 설치 :
Imagemagick 설치 :
Autotalker 저장소를 복제하십시오.
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker모델과 가중치로 Sadtalker를 다운로드하십시오.
python download_models.py위의 명령을 실행하고 "다운로드 완료"가 표시 될 때까지 기다리십시오. 이것은 필요한 모델 및 가중치와 함께 Sadtalker를 다운로드합니다.
가상 환경 생성 :
python -m venv venv가상 환경 활성화 :
source venv/bin/activate. v env S cripts a ctivate종속성 설치 :
pip install -r requirements.txtCuda로 Pytorch를 설치하십시오.
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118이제 프로젝트 환경을 성공적으로 설정하여 GPU가 지정된 요구 사항을 충족하도록합니다.
프로젝트에는 다음과 같은 구조가 있습니다.
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
가상 환경 활성화 :
Gemini Pro API 키 구성 :
main.py 파일을 엽니 다.genai.configure(api_key="add your key here") ."add your key here" 교체하십시오.메인 스크립트 및 Gradio Web UI 실행 :
iface.launch() 파트)를 스크립트에서 복사하십시오.Autotalker를 실행하고 Gradio :
python main.py액세스 그라디오 웹 UI :
인터페이스 탐색 :
제출 및 대기 :
출력 검토 :
자막 탐색 (활성화 된 경우) :
반복 및 실험 :
Close Gradio UI :
이러한 결합 된 단계를 수행함으로써 자동으로 Autotalker를 실행하고 Gradio Web UI와 상호 작용하며 생성 된 립싱 된 비디오를 경험할 수 있습니다.
프로젝트에 기여하는 데 관심을 가져 주셔서 감사합니다! 원활하고 협력적인 경험을 보장하려면 다음과 같은 지침을 따르십시오.
저장소 포크 :
저장소 복제 :
git clone https://github.com/YourUsername/AutoTalker.git지점 만들기 :
git checkout -b feature/your-feature-name변경 :
변경 변경 :
git commit -m " Add your commit message here "푸시 변경 :
git push origin feature/your-feature-name풀 요청 생성 :
검토 및 공동 작업 :
스쿼시 커밋 (필요한 경우) :
병합 :
도움이 필요한 영역 : 인간과 유사한 TTS 구현
중대한 영향을 미치는 데 관심이 있다면 인도 지역 언어를 포함한 다양한 언어 세트에 대한 인간과 같은 텍스트 음성 (TTS)을 구현하는 데 기여하십시오. 남성과 여성 목소리 모두에 대한 TTS 기능을 향상시키는 데 중점을 둡니다.
인도의 다양한 언어 환경을 감안할 때 TT의 인도 지역 언어를 지원하기위한 기여는 매우 중요합니다. 이러한 언어에는 다음이 포함될 수 있지만 이에 국한되지는 않습니다.
이러한 언어에 대한 TT를 구현하려는 노력은 특히 다양한 언어 적 배경을 가진 지역에서 더 광범위한 청중이 교육 콘텐츠를 이용할 수 있도록하는 데 크게 기여할 것입니다.
인간과 같은 TTS 구현에 대한 이러한 중요한 기여를 고려해 주셔서 감사합니다! 귀하의 작업은 다양한 언어 적 배경의 학습자에게 교육 내용을 포함하고 접근 할 수있는 중요한 역할을합니다. ?
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다.
이 프로젝트는 다음과 같은 오픈 소스 프로젝트와 그 기고자를 인정합니다.
Google AI Python SDK : Google AI Python SDK를 통해 개발자는 Google의 최첨단 생성 AI 모델 (Gemini 및 Palm)을 사용하여 AI 기반 기능 및 응용 프로그램을 구축 할 수 있습니다.
Sadtalker : [CVPR 2023] Sadtalker : 양식화 된 오디오 중심의 단일 이미지 말하는 얼굴 애니메이션에 대한 현실적인 3D 모션 계수 학습. Opentalker의 프로젝트.
페달 보드 : Spotify가 개발 한 오디오 작업을위한 파이썬 라이브러리.
Whisper : OpenAI의 오픈 소스 프로젝트 인 대규모 약한 감독을 통한 강력한 음성 인식.
얼굴을 껴안아 변압기 : ? 변압기 : Pytorch, Tensorflow 및 Jax를위한 최첨단 머신 러닝.
포옹으로 가속화하십시오 : 멀티 GPU, TPU, 혼합-프레임으로 Pytorch 모델을 훈련시키고 사용하는 간단한 방법.
얼굴을 껴안아 최적 : 훈련과 추론을 가속화합니까? 변압기와? 사용하기 쉬운 하드웨어 최적화 도구가있는 디퓨저.
Suno ai의 껍질 : ? 텍스트 프로모션 생성 오디오 모델.
Pytorch : 강력한 GPU 가속을 가진 파이썬의 텐서 및 동적 신경망.
이 프로젝트는 Autotalker의 개발 및 기능에 크게 기여했으며 각 개발자 및 관리자에게 감사를 표합니다.