ดาวน์โหลด AutoTalker - ดาวน์โหลดซอร์สโค้ด AutoTalker

AutoTalker

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

autotalker?

วิดีโอสาธิตโครงการ

ลองดูวิดีโอสาธิตเพื่อดู AutoTalker ในการดำเนินการ!

whatsapp.video.2024-02-26.at.2.29.16.am.mp4

ตัวอย่าง

พรอมต์อินพุต

"อธิบาย Python และแอปพลิเคชันของพวกเขาใน 30 วินาที"

รูปภาพอินพุต

วิดีโอเอาต์พุต

output_video.mp4

คำอธิบายโครงการ

โครงการฝึกงาน (TAP)

ในภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของศตวรรษที่ 21 การศึกษาที่ครอบคลุมเป็นสิ่งสำคัญยิ่งสำหรับการเตรียมนักเรียนที่มีทักษะที่จำเป็นในการเจริญเติบโตในสังคมสมัยใหม่ โครงการฝึกงาน (TAP) อุทิศตนเพื่อปลูกฝังทักษะที่จำเป็นในศตวรรษที่ 21 เหล่านี้ในเด็กที่ด้อยโอกาสที่ลงทะเบียนเรียนในรัฐบาลหรือโรงเรียนเอกชนที่มีรายได้น้อย

TAP ดำเนินงานภายใต้ร่มของมูลนิธิ Mentorme ซึ่งเป็น บริษัท ที่ลงทะเบียนมาตรา 8 และได้รับการสนับสนุนอย่างภาคภูมิใจโดยสถาบันที่ได้รับความนิยมเช่นมหาวิทยาลัยฮาร์วาร์ด IIM บังกาลอร์และมูลนิธิเขยิบ ในฐานะพันธมิตรอย่างเป็นทางการกับรัฐบาลของรัฐมหาราษฏระและนิวเดลี Tap มีผลกระทบอย่างมีนัยสำคัญเข้าถึงเด็กกว่า 31,000 คนผ่าน Chatbot ที่เป็นนวัตกรรม

คำสั่งปัญหา

จำนวนนักเรียนมัธยมต้นและมัธยมปลายจำนวนมาก-เกิน 100 ล้าน-จากชุมชนที่มีรายได้ต่ำทั่วอินเดียไม่มีทักษะในศตวรรษที่ 21 ที่สำคัญรวมถึงการเรียนรู้ทางสังคมและอารมณ์ (SEL) และการรู้หนังสือทางการเงิน ระบบการศึกษาสาธารณะที่เน้นการสอบแบบดั้งเดิมทำให้ปัญหานี้รุนแรงขึ้นซึ่งนำไปสู่สถิติที่น่าตกใจว่าเด็ก 1 ใน 2 ที่สำเร็จการศึกษาจากระบบการศึกษาของอินเดียถือว่าว่างงานเนื่องจากไม่มีทักษะที่สำคัญเหล่านี้

สถิติการรู้หนังสือทางการเงิน:
- มีเพียง 16.7% ของนักเรียนวัยรุ่นอินเดียที่มีความรู้ทางการเงินขั้นพื้นฐาน
- เพียง 27% ของประชากรผู้ใหญ่อินเดียถือว่ามีความรู้ทางการเงิน

เป้าหมายการพัฒนาที่ยั่งยืนของสหประชาชาติ (SDGs)

แตะจัดตำแหน่งภารกิจกับ UN SDGs หลายแห่ง:

เป้าหมาย 1: ไม่มีความยากจน
เป้าหมาย 2: ศูนย์หิวโหย
เป้าหมายที่ 3: สุขภาพที่ดีและความเป็นอยู่ที่ดี
เป้าหมาย 4: การศึกษาที่มีคุณภาพ
เป้าหมาย 8: การทำงานที่ดีและการเติบโตทางเศรษฐกิจ

ระบบปัจจุบัน

โครงการ Apprentice (TAP) ดำเนินงานภายใต้มูลนิธิ Mentorme ทำให้นักเรียนด้อยโอกาสผ่าน Tap Buddy-WhatsApp Chatbot ที่มีปัญญาประดิษฐ์ Tap Buddy เสนอวิชาเลือกที่ใช้วิดีโอนำนักเรียนผ่านโครงการอิสระโดยใช้ Personalized (ML-Learned) และ NUDGE และเนื้อหาที่ใช้ AI Bot วิดีโอโครงการการเรียนรู้ด้วยตนเองส่งเสริมทักษะเช่นความคิดสร้างสรรค์ความมั่นใจการรับรู้ตนเองการสื่อสารและการแก้ปัญหาการทำลายอุปสรรคทางจิตและปลูกฝังความคิดการเติบโต

ความท้าทายและนวัตกรรม

ในขณะที่การใช้งานของ Chatbot ของ Tap ยังคงเติบโตโครงการนี้เผชิญกับความท้าทายและแสวงหาโซลูชั่นที่เป็นนวัตกรรม:

การสร้างหลักสูตร: การใช้ประโยชน์จาก AI เพื่อสร้างเนื้อหาในวิชาเลือกที่หลากหลายเช่นการเข้ารหัสและทัศนศิลป์โดยมีวัตถุประสงค์เพื่อเอาชนะข้อ จำกัด ในการสร้างวิดีโอจำนวนมากเนื่องจากข้อ จำกัด ด้านเวลาด้วยตนเอง
การเรียนรู้ส่วนบุคคล: การใช้ AI เพื่อสร้างแบบฝึกหัดการเข้ารหัสส่วนบุคคลหรือคู่มือโครงการศิลปะที่ปรับให้เหมาะกับรูปแบบการเรียนรู้ของแต่ละบุคคลและระดับทักษะ การวิเคราะห์ ML/Open AI ขั้นสูงปรับเนื้อหาตามความคืบหน้าของผู้เรียนเพื่อให้มั่นใจถึงประสบการณ์การเรียนรู้ที่กำหนดเอง
การสร้างเนื้อหา: การใช้ AI เพื่อสร้างตัวอย่างโค้ดเทมเพลตหรือแนวคิดการออกแบบสำหรับโครงการศิลปะชี้นำนักเรียนในระดับทักษะและแนะนำตัวเลือกการสำรวจ
การสำรวจศิลปะ: เทคนิคการแนะนำและสไตล์ตามระดับทักษะของเด็กขยายขอบเขตศิลปะโดยการเปรียบเทียบงานของพวกเขากับศิลปินที่มีชื่อเสียงหรือการเคลื่อนไหวศิลปะ
การเข้ารหัสเชิงสร้างสรรค์: การใช้ AI เพื่อระดมความคิดและให้แรงบันดาลใจสำหรับโครงการการเข้ารหัสที่เป็นนวัตกรรมและศิลปะ

วิธีการและการแก้ปัญหา

วิธีการของฉันในการจัดการกับความท้าทายที่ต้องเผชิญโดยการแตะเกี่ยวข้องกับการใช้ประโยชน์จากเทคโนโลยีที่ทันสมัยรวมถึงการประมวลผลภาษาธรรมชาติ (NLP), ปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องจักร (ML) เพื่อพัฒนา Autotalker ซึ่งเป็นองค์ประกอบของ TAP เพื่อเพิ่มประสบการณ์การศึกษาสำหรับนักเรียน

AutoTalker ใช้โมเดล AI และห้องสมุดขั้นสูงเช่น Suno Bark TTS สำหรับการแปลงแบบข้อความเป็นคำพูด AI Python SDK ของ Google (Gemini Pro) สำหรับการสร้างข้อความและ Sadtalker ด้วยการรวมเทคโนโลยีเหล่านี้ Autotalker ช่วยให้สามารถสร้างเนื้อหาวิดีโอที่มีส่วนร่วมและให้ข้อมูลจากข้อความและรูปภาพ

นอกจากนี้โครงการยังรวมคุณสมบัติต่างๆเช่นการเรียนรู้ส่วนบุคคลความช่วยเหลือในการสร้างเนื้อหาและการสนับสนุนภาษาเพื่อตอบสนองความต้องการและความชอบในการเรียนรู้ที่หลากหลาย ด้วยการควบคุมพลังของ AI AutoTalker ช่วยให้นักการศึกษาและนักเรียนสามารถเข้าถึงเนื้อหาการศึกษาคุณภาพสูงที่ปรับให้เข้ากับความต้องการส่วนบุคคลของพวกเขาซึ่งเป็นการส่งเสริมการพัฒนาทักษะในศตวรรษที่ 21 ที่จำเป็น

ด้วยการแก้ปัญหาที่เป็นนวัตกรรมนี้ Tap มีจุดมุ่งหมายเพื่อปฏิวัติภูมิทัศน์การศึกษาลดช่องว่างในการเข้าถึงทรัพยากรการเรียนรู้ที่มีคุณภาพและเพิ่มขีดความสามารถให้กับนักเรียนจากชุมชนที่ด้อยโอกาสเพื่อตระหนักถึงศักยภาพอย่างเต็มที่ในยุคดิจิตอล

สารบัญ

เกี่ยวกับ
คุณสมบัติ
เริ่มต้น
- ข้อกำหนดเบื้องต้น
- การติดตั้ง
การใช้งาน
การบริจาค
ใบอนุญาต
กิตติกรรมประกาศ

เกี่ยวกับ

โครงการมุ่งเน้นไปที่การใช้ประโยชน์จากเทคโนโลยีเพื่อสร้างหลักสูตรใหม่ปรับแต่งหลักสูตรที่มีอยู่เป็นส่วนตัวและปรับปรุงกระบวนการประเมินในที่สุดก็มีส่วนช่วยในการพัฒนาทักษะในศตวรรษที่ 21 ในนักเรียน Autotalker ซึ่งเป็นส่วนประกอบของการแตะแสดงความสามารถของ AI ในการสร้างวิดีโอที่ซิงค์ลิปจากข้อความและรูปภาพเพิ่มประสบการณ์การศึกษาโดยรวมสำหรับนักเรียน

มันใช้ห้องสมุดหลายแห่งรวมถึง:

Suno Bark TTS: ไลบรารีการแปลงแบบข้อความเป็นคำพูดที่ใช้สำหรับการสร้างเสียงจากข้อความแจ้ง
PYDUB: ไลบรารีการจัดการเสียงสำหรับการจัดการไฟล์เสียงและรูปแบบ
Google.Generativeai (Gemini Pro): AI Python SDK ของ Google Generative ใช้สำหรับการสร้างข้อความ
Sadtalker: รูปแบบการซิงค์ริมฝีปากที่ใช้สำหรับการซิงโครไนซ์เสียงกับการเคลื่อนไหวของใบหน้าในวิดีโอ
Openai Whisper: ไลบรารีสำหรับการแปลงคำพูดเป็นข้อความทำให้สามารถปรับแต่งลักษณะของเสียงได้
Spotify Pedalboard: ไลบรารีการเพิ่มประสิทธิภาพเสียงสำหรับการปรับปรุงคุณภาพและผลกระทบของไฟล์เสียง
MoviePy: ห้องสมุดการแก้ไขวิดีโอที่อำนวยความสะดวกในการประมวลผลวิดีโอและงานแก้ไข
Pytorch: กรอบการเรียนรู้อย่างลึกซึ้งที่ใช้สำหรับงานการเรียนรู้ของเครื่องจักรต่าง ๆ รวมถึงฟังก์ชั่นของ Sadtalker
FFMPEG: กรอบมัลติมีเดียที่ใช้สำหรับการจัดการข้อมูลมัลติมีเดียเช่นไฟล์เสียงและวิดีโอ
Hugging Face Transformers: ห้องสมุดที่ให้แบบจำลองที่ผ่านการฝึกอบรมมาก่อนและสาธารณูปโภคต่าง ๆ สำหรับงานการประมวลผลภาษาธรรมชาติ
BetterTransformer: เส้นทางที่รวดเร็วพร้อมการผลิตเพื่อเร่งการปรับใช้รุ่นหม้อแปลงด้วยประสิทธิภาพสูงใน CPU และ GPU คุณสมบัติ Fast Path ทำงานได้อย่างโปร่งใสสำหรับรุ่นที่ใช้โดยตรงบน Pytorch Core NN
Numpy: ไลบรารีการคำนวณเชิงตัวเลขที่ทรงพลังสำหรับการจัดการอาร์เรย์และเมทริกซ์หลายมิติขนาดใหญ่
Gradio: ไลบรารีที่ใช้งานง่ายสำหรับการสร้างส่วนประกอบ UI ที่ปรับแต่งได้รอบ ๆ โมเดลการเรียนรู้ของเครื่องทำให้สามารถปรับใช้และโต้ตอบกับโมเดลผ่านเว็บอินเตอร์เฟสได้ง่าย

คุณสมบัติ

การแปลงแบบข้อความเป็นคำพูด: ใช้ประโยชน์จาก Bark TTS SUNO เพื่อแปลงข้อความให้เป็นไฟล์เสียง (รูปแบบ WAV)
การจัดการเสียง: ใช้ PYDUB สำหรับงานการจัดการด้วยเสียงเพิ่มคุณภาพเสียงและการใช้เอฟเฟกต์ที่ต้องการ
ข้อความ AI Generative: ใช้ประโยชน์จากการสร้าง AI Python SDK (Gemini Pro) ของ Google สำหรับการสร้างข้อความให้พร้อมรับแจ้งที่หลากหลายและเกี่ยวข้องกับบริบท
การซิงค์ริมฝีปาก: รวม Sadtalker รูปแบบการซิงค์ริมฝีปากเพื่อซิงโครไนซ์เสียงที่สร้างขึ้นกับการเคลื่อนไหวของใบหน้าในวิดีโอ
การแปลงคำพูดเป็นข้อความ: รวม OpenAI Whisper สำหรับการแปลงคำพูดเป็นข้อความช่วยให้สามารถปรับแต่งลักษณะของเสียงได้
การเพิ่มประสิทธิภาพเสียง: ใช้ Spotify Pedalboard เพื่อปรับปรุงและใช้เอฟเฟกต์กับไฟล์เสียงปรับปรุงคุณภาพเสียงโดยรวม
การแก้ไขวิดีโอ: ใช้ MoviePy, ห้องสมุดการแก้ไขวิดีโอ, สำหรับการประมวลผลวิดีโอและงานแก้ไขรวมถึงการสร้างวิดีโอซิงค์ลิปซิงค์ขั้นสุดท้าย
กรอบการเรียนรู้ลึก: ใช้ประโยชน์จากความสามารถในการเรียนรู้อย่างลึกซึ้งซึ่งจำเป็นสำหรับการดำเนินการฟังก์ชั่นของ Sadtalker
การจัดการมัลติมีเดีย: ใช้ FFMPEG ซึ่งเป็นกรอบมัลติมีเดียสำหรับการจัดการข้อมูลมัลติมีเดียเช่นไฟล์เสียงและวิดีโอในระหว่างการประมวลผล
การประมวลผลภาษาธรรมชาติ: รวมการกอดหม้อแปลงใบหน้านำเสนอแบบจำลองและยูทิลิตี้ที่ผ่านการฝึกอบรมมาก่อนสำหรับงานการประมวลผลภาษาธรรมชาติ
เส้นทางที่รวดเร็วสำหรับโมเดลหม้อแปลง: รวม BetterTransformer ซึ่งเป็นเส้นทางที่รวดเร็วพร้อมการผลิตสำหรับการปรับใช้แบบเร่งความเร็วของโมเดลหม้อแปลงบน CPU และ GPU
การคำนวณเชิงตัวเลข: อาศัย NumPy สำหรับการคำนวณเชิงตัวเลขที่มีประสิทธิภาพโดยเฉพาะอย่างยิ่งสำหรับการจัดการอาร์เรย์ขนาดใหญ่หลายมิติและเมทริกซ์
ส่วนประกอบ UI ที่ใช้งานง่าย: รวม Gradio ซึ่งเป็นไลบรารีที่ใช้งานง่ายเพื่อสร้างส่วนประกอบ UI ที่ปรับแต่งได้รอบ ๆ แบบจำลองการเรียนรู้ของเครื่องช่วยอำนวยความสะดวกในการปรับใช้และการโต้ตอบผ่านเว็บอินเตอร์เฟส
การสนับสนุนภาษา: สนับสนุนหลายภาษารวมถึงภาษาอังกฤษ, จีน (ง่าย), ฝรั่งเศส, เยอรมัน, ภาษาฮินดี, อิตาลี, ญี่ปุ่น, เกาหลี, โปแลนด์, โปรตุเกส, รัสเซีย, สเปนและตุรกี
การสนับสนุนคำบรรยาย: ปัจจุบันมีเฉพาะสำหรับภาษาอังกฤษ

คุณสมบัติเหล่านี้มีส่วนร่วมในการสร้างวิดีโอที่ซิงค์ริมฝีปากจากข้อความแจ้งและรูปภาพด้วยการสนับสนุนด้วยภาษาและคำบรรยายต่าง ๆ เป็นภาษาอังกฤษ

เริ่มต้น

ข้อกำหนดเบื้องต้น

Python 3.10.6
คีย์ API จาก Google AI
ติดตั้ง FFMPEG
ติดตั้ง Pytorch ตรวจสอบให้แน่ใจว่าระบบของคุณรองรับ cuda
ติดตั้ง Imagemagick สิ่งนี้จำเป็นสำหรับ MoviePy
ติดตั้ง Sadtalker
หมายเหตุ: ตรวจสอบให้แน่ใจว่า GPU ของคุณมีอย่างน้อย 4 GB VRAM พร้อมการสนับสนุนสำหรับ CUDA

การติดตั้ง

ติดตั้ง Python 3.10.6:
- ดาวน์โหลดและติดตั้ง Python 3.10.6 โปรดทราบว่าไม่รองรับเวอร์ชัน 3.11 และ 3.12
ติดตั้ง ffmpeg:
- ทำตามคำแนะนำที่เหมาะสมสำหรับระบบของคุณ
ติดตั้ง Imagemagick:
- ดาวน์โหลดและติดตั้ง ImageMagick

โคลนที่เก็บ Autotalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

ดาวน์โหลด Sadtalker ด้วยรุ่นและน้ำหนัก:
```
python download_models.py
```
เรียกใช้คำสั่งด้านบนและรอจนกว่าจะแสดง "การดาวน์โหลดเสร็จสมบูรณ์" สิ่งนี้จะดาวน์โหลด Sadtalker พร้อมกับรุ่นและน้ำหนักที่ต้องการ
สร้างสภาพแวดล้อมเสมือนจริง:
```
python -m venv venv
```
เปิดใช้งานสภาพแวดล้อมเสมือนจริง:
- บน linux/mac:
```
 source venv/bin/activate
```
- บน Windows:
```
. v env S cripts a ctivate
```
ติดตั้งการพึ่งพา:
```
pip install -r requirements.txt
```

ติดตั้ง pytorch ด้วย cuda:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

ตอนนี้คุณได้ตั้งค่าสภาพแวดล้อมสำหรับโครงการสำเร็จแล้วเพื่อให้มั่นใจว่า GPU ของคุณตรงตามข้อกำหนดที่ระบุ

การใช้งาน

โครงสร้างโครงการ

โครงการมีโครงสร้างดังต่อไปนี้:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

ขั้นตอนในการเรียกใช้ AutoTalker และเปิด gradio web UI:

เปิดใช้งานสภาพแวดล้อมเสมือนจริง:
- เปิดใช้งานสภาพแวดล้อมเสมือนจริงที่สร้างขึ้นก่อนหน้านี้
กำหนดค่าคีย์ Gemini Pro API:
- เปิดไฟล์ main.py
- ค้นหาบรรทัด: genai.configure(api_key="add your key here")
- แทนที่ "add your key here" ด้วยคีย์ Gemini Pro API จริงของคุณ
เรียกใช้สคริปต์หลักและ Gradeio Web UI:
- คัดลอกรหัส gradio ที่ให้ไว้ ( iface.launch() ) จากสคริปต์
เรียกใช้ Autotalker และเปิดตัว Gradio:
- ในเทอร์มินัลเดียวกันกับที่สภาพแวดล้อมเสมือนจริงของคุณใช้งานให้เรียกใช้สคริปต์ AutoTalker พร้อมกับ gradio Web UI
```
python main.py
```
เข้าถึง Gradio Web UI:
- หลังจากเรียกใช้สคริปต์แล้ว Gradio จะให้ลิงก์ (โดยปกติแล้ว localhost) ที่โฮสต์เว็บ UI เปิดลิงค์นั้นในเว็บเบราว์เซอร์ของคุณ
สำรวจอินเทอร์เฟซ:
- ตอนนี้คุณจะสามารถเข้าถึงอินเทอร์เฟซ Gradio Web UI ได้
- โต้ตอบกับส่วนประกอบอินพุตที่ให้ไว้เช่นกล่องข้อความปุ่มตัวเลือกแถบเลื่อนและตัวเลือกการอัปโหลดรูปภาพ
ส่งและรอ:
- คลิกที่ปุ่ม "เปิดใช้งานอินเทอร์เฟซ" หรือที่คล้ายกันเพื่อส่งอินพุตของคุณ
- Gradio จะประมวลผลอินพุตของคุณสร้างผลลัพธ์และแสดงผลลัพธ์ในเว็บ UI
รีวิวผลลัพธ์:
- ผลลัพธ์อาจเป็นวิดีโอที่มีหรือไม่มีคำบรรยายขึ้นอยู่กับการกำหนดค่าของคุณ
สำรวจคำบรรยาย (ถ้าเปิดใช้งาน):
- หากคุณเปิดใช้งานการสนับสนุนคำบรรยายให้สำรวจคำบรรยายที่สร้างขึ้นสำหรับวิดีโอ
ทำซ้ำและทดลอง:
- อย่าลังเลที่จะทดสอบด้วยอินพุตพรอมต์และพารามิเตอร์ที่แตกต่างกันเพื่อสร้างเอาต์พุตต่างๆ
ปิด Gradio UI:
- เมื่อคุณทำเสร็จแล้วให้ปิด UI ของ Gradio Web

ด้วยการทำตามขั้นตอนที่รวมกันเหล่านี้คุณสามารถเรียกใช้ Autotalker ได้อย่างราบรื่นโต้ตอบกับ GRATIO Web UI และสัมผัสกับวิดีโอลิปซิงค์ที่สร้างขึ้น

การบริจาค

เราขอขอบคุณที่คุณสนใจในการสนับสนุนโครงการของเรา! เพื่อให้แน่ใจว่าประสบการณ์ที่ราบรื่นและทำงานร่วมกันโปรดปฏิบัติตามแนวทางเหล่านี้:

ส้อมที่เก็บ:
- เริ่มต้นด้วยการหาที่เก็บนี้ไปยังบัญชี GitHub ของคุณ

โคลนที่เก็บ:

git clone https://github.com/YourUsername/AutoTalker.git

สร้างสาขา:
- สำหรับการบริจาคแต่ละครั้งให้สร้างสาขาใหม่ที่มีชื่อเชิงพรรณนา
```
git checkout -b feature/your-feature-name
```
ทำการเปลี่ยนแปลง:
- ใช้การปรับปรุงหรือแก้ไข ตรวจสอบให้แน่ใจว่าการเปลี่ยนแปลงของคุณสอดคล้องกับเป้าหมายของโครงการ
กระทำการเปลี่ยนแปลง:
- กระทำการเปลี่ยนแปลงของคุณด้วยข้อความที่ชัดเจนและรัดกุม
```
git commit -m " Add your commit message here "
```
ผลักดันการเปลี่ยนแปลง:
- ผลักดันการเปลี่ยนแปลงของคุณไปยังที่เก็บข้อมูลของคุณ
```
git push origin feature/your-feature-name
```
สร้างคำขอดึง:
- เปิดคำขอดึงจากที่เก็บส้อมของคุณไปยังที่เก็บหลัก
- ให้ข้อมูลโดยละเอียดเกี่ยวกับการเปลี่ยนแปลงของคุณโดยสรุปวัตถุประสงค์และผลกระทบ
ตรวจสอบและทำงานร่วมกัน:
- มีส่วนร่วมในการอภิปรายตอบสนองต่อข้อเสนอแนะและร่วมมือกับชุมชนเพื่อปรับแต่งการบริจาคของคุณ
สควอชกระทำ (ถ้าจำเป็น):
- หากคำขอดึงของคุณมีหลาย ๆ ครั้งให้พิจารณาบีบให้พวกเขาเป็นหนึ่งเดียวที่มีโครงสร้างที่มีโครงสร้างดี
ผสาน:
- เมื่อคำขอดึงของคุณได้รับการอนุมัติจะถูกรวมเข้ากับที่เก็บหลัก
พื้นที่ที่ต้องการความช่วยเหลือ: การใช้ TTS เหมือนมนุษย์

หากคุณสนใจที่จะสร้างผลกระทบอย่างมีนัยสำคัญให้พิจารณามีส่วนร่วมในการดำเนินการตามข้อความที่เหมือนมนุษย์กับการพูด (TTS) สำหรับชุดภาษาที่หลากหลายรวมถึงภาษาภูมิภาคของอินเดีย มุ่งเน้นไปที่การเพิ่มขีดความสามารถของ TTS สำหรับเสียงชายและหญิง

ภาษาที่สนับสนุนสำหรับการใช้งาน TTS เหมือนมนุษย์:

ภาษาอาหรับ (AR)
เบงกาลี (BN)
บัลแกเรีย (BG)
โครเอเชีย (HR)
เช็ก (CS)
เดนมาร์ก (ดา)
ดัตช์ (NL)
เอสโตเนีย (ET)
ฟินแลนด์ (FI)
กรีก (EL)
ฮีบรู (IW)
ฮังการี (หู)
ชาวอินโดนีเซีย (ID)
ลัตเวีย (LV)
Lithuanian (LT)
นอร์เวย์ (ไม่)
โรมาเนีย (RO)
เซอร์เบีย (SR)
Slovak (SK)
สโลวีเนีย (SL)
สวาฮิลี (SW)

มุ่งเน้นเพิ่มเติมเกี่ยวกับภาษาภูมิภาคของอินเดีย:

เมื่อพิจารณาถึงภูมิทัศน์ทางภาษาที่หลากหลายในอินเดียการมีส่วนร่วมในการสนับสนุนภาษาภูมิภาคของอินเดียใน TTS นั้นมีค่าสูง ภาษาเหล่านี้อาจรวมถึง แต่ไม่ จำกัด เพียง:

ภาษาฮินดี
ทมิฬ
เตลูกู
ภาษากันนาดา
มาลายาลัม
ปัญจาบ
รัฐคุชราต
มาราธี
เบงกอล
Odia
อัสสัม
ภาษาอูรดู

ความพยายามของคุณในการใช้ TTS สำหรับภาษาเหล่านี้จะมีส่วนช่วยในการทำให้เนื้อหาการศึกษาสามารถเข้าถึงผู้ชมที่กว้างขึ้นโดยเฉพาะในภูมิภาคที่มีภูมิหลังทางภาษาที่หลากหลาย

ขอบคุณที่พิจารณาการมีส่วนร่วมที่สำคัญเหล่านี้ในการดำเนินการ TTS เหมือนมนุษย์! งานของคุณจะมีบทบาทสำคัญในการทำให้เนื้อหาการศึกษารวมและเข้าถึงได้ง่ายสำหรับผู้เรียนจากภูมิหลังทางภาษาต่างๆ -

ใบอนุญาต

โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT

กิตติกรรมประกาศ

โครงการนี้รับทราบโครงการโอเพนซอร์สต่อไปนี้และผู้สนับสนุนของพวกเขา:

Google AI Python SDK: Google AI Python SDK ช่วยให้นักพัฒนาสามารถใช้โมเดล AI ที่ทันสมัยที่สุดของ Google (เช่นราศีเมถุนและปาล์ม) เพื่อสร้างคุณสมบัติและแอพพลิเคชั่นที่ขับเคลื่อนด้วย AI
Sadtalker: [CVPR 2023] Sadtalker: การเรียนรู้ค่าสัมประสิทธิ์การเคลื่อนไหว 3 มิติที่สมจริงสำหรับภาพอนิเมชั่นการพูดคุยแบบอนิเมชั่นที่ขับเคลื่อนด้วยเสียง โครงการโดย Opentalker
Pedalboard: ห้องสมุด Python สำหรับการทำงานกับเสียงพัฒนาโดย Spotify
Whisper: การจดจำคำพูดที่แข็งแกร่งผ่านการกำกับดูแลที่อ่อนแอขนาดใหญ่โครงการโอเพนซอร์ซโดย Openai
Transformers โดย Hugging Face:? Transformers: การเรียนรู้ของเครื่องจักรที่ทันสมัยสำหรับ Pytorch, Tensorflow และ Jax
เร่งความเร็วด้วยการกอดใบหน้า: วิธีง่ายๆในการฝึกอบรมและใช้โมเดล Pytorch ด้วย Multi-GPU, TPU, ความแม่นยำแบบผสม
เหมาะสมที่สุดโดยการกอดใบหน้า: เร่งการฝึกอบรมและการอนุมานของ? หม้อแปลงและ? diffusers ด้วยเครื่องมือเพิ่มประสิทธิภาพฮาร์ดแวร์ที่ใช้งานง่าย
Bark by suno ai:? รูปแบบเสียงกำเนิดที่นำเสนอข้อความ
Pytorch: เทนเซอร์และเครือข่ายประสาทแบบไดนามิกใน Python ด้วยการเร่งความเร็ว GPU ที่แข็งแกร่ง