ลองดูวิดีโอสาธิตเพื่อดู AutoTalker ในการดำเนินการ!
พรอมต์อินพุต
"อธิบาย Python และแอปพลิเคชันของพวกเขาใน 30 วินาที"
รูปภาพอินพุต

วิดีโอเอาต์พุต
ในภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของศตวรรษที่ 21 การศึกษาที่ครอบคลุมเป็นสิ่งสำคัญยิ่งสำหรับการเตรียมนักเรียนที่มีทักษะที่จำเป็นในการเจริญเติบโตในสังคมสมัยใหม่ โครงการฝึกงาน (TAP) อุทิศตนเพื่อปลูกฝังทักษะที่จำเป็นในศตวรรษที่ 21 เหล่านี้ในเด็กที่ด้อยโอกาสที่ลงทะเบียนเรียนในรัฐบาลหรือโรงเรียนเอกชนที่มีรายได้น้อย
TAP ดำเนินงานภายใต้ร่มของมูลนิธิ Mentorme ซึ่งเป็น บริษัท ที่ลงทะเบียนมาตรา 8 และได้รับการสนับสนุนอย่างภาคภูมิใจโดยสถาบันที่ได้รับความนิยมเช่นมหาวิทยาลัยฮาร์วาร์ด IIM บังกาลอร์และมูลนิธิเขยิบ ในฐานะพันธมิตรอย่างเป็นทางการกับรัฐบาลของรัฐมหาราษฏระและนิวเดลี Tap มีผลกระทบอย่างมีนัยสำคัญเข้าถึงเด็กกว่า 31,000 คนผ่าน Chatbot ที่เป็นนวัตกรรม
จำนวนนักเรียนมัธยมต้นและมัธยมปลายจำนวนมาก-เกิน 100 ล้าน-จากชุมชนที่มีรายได้ต่ำทั่วอินเดียไม่มีทักษะในศตวรรษที่ 21 ที่สำคัญรวมถึงการเรียนรู้ทางสังคมและอารมณ์ (SEL) และการรู้หนังสือทางการเงิน ระบบการศึกษาสาธารณะที่เน้นการสอบแบบดั้งเดิมทำให้ปัญหานี้รุนแรงขึ้นซึ่งนำไปสู่สถิติที่น่าตกใจว่าเด็ก 1 ใน 2 ที่สำเร็จการศึกษาจากระบบการศึกษาของอินเดียถือว่าว่างงานเนื่องจากไม่มีทักษะที่สำคัญเหล่านี้
แตะจัดตำแหน่งภารกิจกับ UN SDGs หลายแห่ง:
โครงการ Apprentice (TAP) ดำเนินงานภายใต้มูลนิธิ Mentorme ทำให้นักเรียนด้อยโอกาสผ่าน Tap Buddy-WhatsApp Chatbot ที่มีปัญญาประดิษฐ์ Tap Buddy เสนอวิชาเลือกที่ใช้วิดีโอนำนักเรียนผ่านโครงการอิสระโดยใช้ Personalized (ML-Learned) และ NUDGE และเนื้อหาที่ใช้ AI Bot วิดีโอโครงการการเรียนรู้ด้วยตนเองส่งเสริมทักษะเช่นความคิดสร้างสรรค์ความมั่นใจการรับรู้ตนเองการสื่อสารและการแก้ปัญหาการทำลายอุปสรรคทางจิตและปลูกฝังความคิดการเติบโต
ในขณะที่การใช้งานของ Chatbot ของ Tap ยังคงเติบโตโครงการนี้เผชิญกับความท้าทายและแสวงหาโซลูชั่นที่เป็นนวัตกรรม:
การสร้างหลักสูตร: การใช้ประโยชน์จาก AI เพื่อสร้างเนื้อหาในวิชาเลือกที่หลากหลายเช่นการเข้ารหัสและทัศนศิลป์โดยมีวัตถุประสงค์เพื่อเอาชนะข้อ จำกัด ในการสร้างวิดีโอจำนวนมากเนื่องจากข้อ จำกัด ด้านเวลาด้วยตนเอง
การเรียนรู้ส่วนบุคคล: การใช้ AI เพื่อสร้างแบบฝึกหัดการเข้ารหัสส่วนบุคคลหรือคู่มือโครงการศิลปะที่ปรับให้เหมาะกับรูปแบบการเรียนรู้ของแต่ละบุคคลและระดับทักษะ การวิเคราะห์ ML/Open AI ขั้นสูงปรับเนื้อหาตามความคืบหน้าของผู้เรียนเพื่อให้มั่นใจถึงประสบการณ์การเรียนรู้ที่กำหนดเอง
การสร้างเนื้อหา: การใช้ AI เพื่อสร้างตัวอย่างโค้ดเทมเพลตหรือแนวคิดการออกแบบสำหรับโครงการศิลปะชี้นำนักเรียนในระดับทักษะและแนะนำตัวเลือกการสำรวจ
การสำรวจศิลปะ: เทคนิคการแนะนำและสไตล์ตามระดับทักษะของเด็กขยายขอบเขตศิลปะโดยการเปรียบเทียบงานของพวกเขากับศิลปินที่มีชื่อเสียงหรือการเคลื่อนไหวศิลปะ
การเข้ารหัสเชิงสร้างสรรค์: การใช้ AI เพื่อระดมความคิดและให้แรงบันดาลใจสำหรับโครงการการเข้ารหัสที่เป็นนวัตกรรมและศิลปะ
วิธีการของฉันในการจัดการกับความท้าทายที่ต้องเผชิญโดยการแตะเกี่ยวข้องกับการใช้ประโยชน์จากเทคโนโลยีที่ทันสมัยรวมถึงการประมวลผลภาษาธรรมชาติ (NLP), ปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องจักร (ML) เพื่อพัฒนา Autotalker ซึ่งเป็นองค์ประกอบของ TAP เพื่อเพิ่มประสบการณ์การศึกษาสำหรับนักเรียน
AutoTalker ใช้โมเดล AI และห้องสมุดขั้นสูงเช่น Suno Bark TTS สำหรับการแปลงแบบข้อความเป็นคำพูด AI Python SDK ของ Google (Gemini Pro) สำหรับการสร้างข้อความและ Sadtalker ด้วยการรวมเทคโนโลยีเหล่านี้ Autotalker ช่วยให้สามารถสร้างเนื้อหาวิดีโอที่มีส่วนร่วมและให้ข้อมูลจากข้อความและรูปภาพ
นอกจากนี้โครงการยังรวมคุณสมบัติต่างๆเช่นการเรียนรู้ส่วนบุคคลความช่วยเหลือในการสร้างเนื้อหาและการสนับสนุนภาษาเพื่อตอบสนองความต้องการและความชอบในการเรียนรู้ที่หลากหลาย ด้วยการควบคุมพลังของ AI AutoTalker ช่วยให้นักการศึกษาและนักเรียนสามารถเข้าถึงเนื้อหาการศึกษาคุณภาพสูงที่ปรับให้เข้ากับความต้องการส่วนบุคคลของพวกเขาซึ่งเป็นการส่งเสริมการพัฒนาทักษะในศตวรรษที่ 21 ที่จำเป็น
ด้วยการแก้ปัญหาที่เป็นนวัตกรรมนี้ Tap มีจุดมุ่งหมายเพื่อปฏิวัติภูมิทัศน์การศึกษาลดช่องว่างในการเข้าถึงทรัพยากรการเรียนรู้ที่มีคุณภาพและเพิ่มขีดความสามารถให้กับนักเรียนจากชุมชนที่ด้อยโอกาสเพื่อตระหนักถึงศักยภาพอย่างเต็มที่ในยุคดิจิตอล
โครงการมุ่งเน้นไปที่การใช้ประโยชน์จากเทคโนโลยีเพื่อสร้างหลักสูตรใหม่ปรับแต่งหลักสูตรที่มีอยู่เป็นส่วนตัวและปรับปรุงกระบวนการประเมินในที่สุดก็มีส่วนช่วยในการพัฒนาทักษะในศตวรรษที่ 21 ในนักเรียน Autotalker ซึ่งเป็นส่วนประกอบของการแตะแสดงความสามารถของ AI ในการสร้างวิดีโอที่ซิงค์ลิปจากข้อความและรูปภาพเพิ่มประสบการณ์การศึกษาโดยรวมสำหรับนักเรียน
มันใช้ห้องสมุดหลายแห่งรวมถึง:
คุณสมบัติเหล่านี้มีส่วนร่วมในการสร้างวิดีโอที่ซิงค์ริมฝีปากจากข้อความแจ้งและรูปภาพด้วยการสนับสนุนด้วยภาษาและคำบรรยายต่าง ๆ เป็นภาษาอังกฤษ
Python 3.10.6
คีย์ API จาก Google AI
ติดตั้ง FFMPEG
ติดตั้ง Pytorch ตรวจสอบให้แน่ใจว่าระบบของคุณรองรับ cuda
ติดตั้ง Imagemagick สิ่งนี้จำเป็นสำหรับ MoviePy
ติดตั้ง Sadtalker
หมายเหตุ: ตรวจสอบให้แน่ใจว่า GPU ของคุณมีอย่างน้อย 4 GB VRAM พร้อมการสนับสนุนสำหรับ CUDA
ติดตั้ง Python 3.10.6:
ติดตั้ง ffmpeg:
ติดตั้ง Imagemagick:
โคลนที่เก็บ Autotalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerดาวน์โหลด Sadtalker ด้วยรุ่นและน้ำหนัก:
python download_models.pyเรียกใช้คำสั่งด้านบนและรอจนกว่าจะแสดง "การดาวน์โหลดเสร็จสมบูรณ์" สิ่งนี้จะดาวน์โหลด Sadtalker พร้อมกับรุ่นและน้ำหนักที่ต้องการ
สร้างสภาพแวดล้อมเสมือนจริง:
python -m venv venvเปิดใช้งานสภาพแวดล้อมเสมือนจริง:
source venv/bin/activate. v env S cripts a ctivateติดตั้งการพึ่งพา:
pip install -r requirements.txtติดตั้ง pytorch ด้วย cuda:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118ตอนนี้คุณได้ตั้งค่าสภาพแวดล้อมสำหรับโครงการสำเร็จแล้วเพื่อให้มั่นใจว่า GPU ของคุณตรงตามข้อกำหนดที่ระบุ
โครงการมีโครงสร้างดังต่อไปนี้:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
เปิดใช้งานสภาพแวดล้อมเสมือนจริง:
กำหนดค่าคีย์ Gemini Pro API:
main.pygenai.configure(api_key="add your key here")"add your key here" ด้วยคีย์ Gemini Pro API จริงของคุณเรียกใช้สคริปต์หลักและ Gradeio Web UI:
iface.launch() ) จากสคริปต์เรียกใช้ Autotalker และเปิดตัว Gradio:
python main.pyเข้าถึง Gradio Web UI:
สำรวจอินเทอร์เฟซ:
ส่งและรอ:
รีวิวผลลัพธ์:
สำรวจคำบรรยาย (ถ้าเปิดใช้งาน):
ทำซ้ำและทดลอง:
ปิด Gradio UI:
ด้วยการทำตามขั้นตอนที่รวมกันเหล่านี้คุณสามารถเรียกใช้ Autotalker ได้อย่างราบรื่นโต้ตอบกับ GRATIO Web UI และสัมผัสกับวิดีโอลิปซิงค์ที่สร้างขึ้น
เราขอขอบคุณที่คุณสนใจในการสนับสนุนโครงการของเรา! เพื่อให้แน่ใจว่าประสบการณ์ที่ราบรื่นและทำงานร่วมกันโปรดปฏิบัติตามแนวทางเหล่านี้:
ส้อมที่เก็บ:
โคลนที่เก็บ:
git clone https://github.com/YourUsername/AutoTalker.gitสร้างสาขา:
git checkout -b feature/your-feature-nameทำการเปลี่ยนแปลง:
กระทำการเปลี่ยนแปลง:
git commit -m " Add your commit message here "ผลักดันการเปลี่ยนแปลง:
git push origin feature/your-feature-nameสร้างคำขอดึง:
ตรวจสอบและทำงานร่วมกัน:
สควอชกระทำ (ถ้าจำเป็น):
ผสาน:
พื้นที่ที่ต้องการความช่วยเหลือ: การใช้ TTS เหมือนมนุษย์
หากคุณสนใจที่จะสร้างผลกระทบอย่างมีนัยสำคัญให้พิจารณามีส่วนร่วมในการดำเนินการตามข้อความที่เหมือนมนุษย์กับการพูด (TTS) สำหรับชุดภาษาที่หลากหลายรวมถึงภาษาภูมิภาคของอินเดีย มุ่งเน้นไปที่การเพิ่มขีดความสามารถของ TTS สำหรับเสียงชายและหญิง
เมื่อพิจารณาถึงภูมิทัศน์ทางภาษาที่หลากหลายในอินเดียการมีส่วนร่วมในการสนับสนุนภาษาภูมิภาคของอินเดียใน TTS นั้นมีค่าสูง ภาษาเหล่านี้อาจรวมถึง แต่ไม่ จำกัด เพียง:
ความพยายามของคุณในการใช้ TTS สำหรับภาษาเหล่านี้จะมีส่วนช่วยในการทำให้เนื้อหาการศึกษาสามารถเข้าถึงผู้ชมที่กว้างขึ้นโดยเฉพาะในภูมิภาคที่มีภูมิหลังทางภาษาที่หลากหลาย
ขอบคุณที่พิจารณาการมีส่วนร่วมที่สำคัญเหล่านี้ในการดำเนินการ TTS เหมือนมนุษย์! งานของคุณจะมีบทบาทสำคัญในการทำให้เนื้อหาการศึกษารวมและเข้าถึงได้ง่ายสำหรับผู้เรียนจากภูมิหลังทางภาษาต่างๆ -
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT
โครงการนี้รับทราบโครงการโอเพนซอร์สต่อไปนี้และผู้สนับสนุนของพวกเขา:
Google AI Python SDK: Google AI Python SDK ช่วยให้นักพัฒนาสามารถใช้โมเดล AI ที่ทันสมัยที่สุดของ Google (เช่นราศีเมถุนและปาล์ม) เพื่อสร้างคุณสมบัติและแอพพลิเคชั่นที่ขับเคลื่อนด้วย AI
Sadtalker: [CVPR 2023] Sadtalker: การเรียนรู้ค่าสัมประสิทธิ์การเคลื่อนไหว 3 มิติที่สมจริงสำหรับภาพอนิเมชั่นการพูดคุยแบบอนิเมชั่นที่ขับเคลื่อนด้วยเสียง โครงการโดย Opentalker
Pedalboard: ห้องสมุด Python สำหรับการทำงานกับเสียงพัฒนาโดย Spotify
Whisper: การจดจำคำพูดที่แข็งแกร่งผ่านการกำกับดูแลที่อ่อนแอขนาดใหญ่โครงการโอเพนซอร์ซโดย Openai
Transformers โดย Hugging Face:? Transformers: การเรียนรู้ของเครื่องจักรที่ทันสมัยสำหรับ Pytorch, Tensorflow และ Jax
เร่งความเร็วด้วยการกอดใบหน้า: วิธีง่ายๆในการฝึกอบรมและใช้โมเดล Pytorch ด้วย Multi-GPU, TPU, ความแม่นยำแบบผสม
เหมาะสมที่สุดโดยการกอดใบหน้า: เร่งการฝึกอบรมและการอนุมานของ? หม้อแปลงและ? diffusers ด้วยเครื่องมือเพิ่มประสิทธิภาพฮาร์ดแวร์ที่ใช้งานง่าย
Bark by suno ai:? รูปแบบเสียงกำเนิดที่นำเสนอข้อความ
Pytorch: เทนเซอร์และเครือข่ายประสาทแบบไดนามิกใน Python ด้วยการเร่งความเร็ว GPU ที่แข็งแกร่ง
โครงการเหล่านี้มีส่วนช่วยในการพัฒนาและการทำงานของ Autotalker อย่างมีนัยสำคัญและเราขอขอบคุณผู้พัฒนาและผู้ดูแลที่เกี่ยวข้อง