Lihat video demo untuk melihat Autotalker beraksi!
Input prompt
"Jelaskan Python dan aplikasi mereka dalam 30 detik"
Gambar input

Video output
Dalam lanskap yang berkembang pesat abad ke -21, pendidikan yang komprehensif sangat penting untuk mempersiapkan siswa dengan keterampilan yang diperlukan untuk berkembang dalam masyarakat modern. Proyek Apprentice (TAP) didedikasikan untuk menumbuhkan keterampilan penting abad ke-21 ini di antara anak-anak yang kurang terlayani yang terdaftar di pemerintah atau sekolah swasta berpenghasilan rendah.
TAP beroperasi di bawah payung Yayasan Mentorme, sebuah perusahaan terdaftar Bagian 8, dan dengan bangga didukung oleh lembaga -lembaga terhormat seperti Universitas Harvard, IIM Bangalore, dan Nudge Foundation. Sebagai mitra resmi dengan pemerintah Maharashtra dan Delhi, Tap memiliki dampak yang signifikan, menjangkau lebih dari 31.000 anak -anak melalui chatbot inovatifnya.
Sejumlah siswa sekolah menengah dan menengah yang mengejutkan-lebih dari 100 juta-dari komunitas berpenghasilan rendah di seluruh India tidak memiliki keterampilan abad ke-21 yang kritis, termasuk pembelajaran sosial & emosional (SEL) dan literasi keuangan. Sistem pendidikan publik tradisional-centric memperburuk masalah ini, yang mengarah pada statistik yang mengkhawatirkan bahwa 1 dari 2 anak yang lulus dari sistem pendidikan India dianggap tidak dapat dikerjakan karena tidak adanya keterampilan penting ini.
Ketuk menyelaraskan misinya dengan beberapa SDG PBB:
Proyek Apprentice (TAP), yang beroperasi di bawah Yayasan Mentorme, memberdayakan siswa yang kurang terlayani melalui Tap Buddy-whatsapp chatbot yang bertenaga kecerdasan buatan. Tap Buddy menawarkan pilihan berbasis video, membimbing siswa melalui proyek independen menggunakan personalisasi (yang dipelajari ML) dan dorongan dan konten berbasis AI bot. Video proyek belajar mandiri menumbuhkan keterampilan seperti kreativitas, kepercayaan diri, kesadaran diri, komunikasi, dan pemecahan masalah, melanggar hambatan mental dan menanamkan pola pikir pertumbuhan.
Saat penggunaan chatbot Tap terus tumbuh, proyek ini menghadapi tantangan dan mencari solusi inovatif:
Penciptaan Kursus: Memanfaatkan AI untuk menghasilkan konten di berbagai pilihan seperti pengkodean dan seni visual, yang bertujuan untuk mengatasi keterbatasan dalam pembuatan video curah karena kendala waktu manual.
Pembelajaran yang dipersonalisasi: Mempekerjakan AI untuk membuat tutorial pengkodean yang dipersonalisasi atau panduan proyek seni yang disesuaikan dengan gaya belajar individu dan tingkat keterampilan. Analisis AI Lanjutan ML/Open AI mengadaptasi konten berdasarkan kemajuan pelajar, memastikan pengalaman belajar yang disesuaikan.
Pembuatan Konten: Memanfaatkan AI untuk menghasilkan cuplikan kode, templat, atau ide desain untuk proyek seni, membimbing siswa di tingkat keterampilan mereka dan menyarankan opsi eksplorasi.
Eksplorasi Artistik: Merekomendasikan teknik dan gaya berdasarkan tingkat keterampilan anak, memperluas cakrawala artistik dengan membandingkan karya mereka dengan seniman atau gerakan seni terkenal.
Pengkodean Kreatif: Menggunakan AI untuk bertukar pikiran dan memberikan inspirasi untuk proyek pengkodean inovatif dan artistik.
Pendekatan saya untuk mengatasi tantangan yang dihadapi oleh TAP melibatkan memanfaatkan teknologi mutakhir, termasuk Natural Language Processing (NLP), Kecerdasan Buatan (AI), dan Pembelajaran Mesin (ML), untuk mengembangkan autotalker-komponen TAP yang bertujuan meningkatkan pengalaman pendidikan bagi siswa.
Autotalker menggunakan model dan perpustakaan AI canggih, seperti Suno Bark TTS untuk konversi teks-ke-bicara, AI Python SDK (Gemini Pro) generatif untuk pembuatan teks, dan sadtalker untuk audio sinkronisasi bibir dengan gerakan wajah dalam video. Dengan mengintegrasikan teknologi ini, Autotalker memungkinkan pembuatan konten video yang menarik dan informatif dari petunjuk dan gambar teks.
Selain itu, proyek ini menggabungkan fitur -fitur seperti pembelajaran yang dipersonalisasi, bantuan pembuatan konten, dan dukungan bahasa untuk memenuhi kebutuhan dan preferensi belajar yang beragam. Dengan memanfaatkan kekuatan AI, Autotalker memberdayakan para pendidik dan siswa untuk mengakses konten pendidikan berkualitas tinggi yang disesuaikan dengan kebutuhan masing-masing, sehingga mendorong pengembangan keterampilan abad ke-21 yang penting.
Melalui solusi inovatif ini, TAP bertujuan untuk merevolusi lanskap pendidikan, menjembatani kesenjangan dalam akses ke sumber belajar yang berkualitas dan memberdayakan siswa dari komunitas yang kurang terlayani untuk mewujudkan potensi penuh mereka di era digital.
Proyek ini berfokus pada peningkatan teknologi untuk membuat kursus baru, mempersonalisasikan yang sudah ada, dan meningkatkan proses penilaian, pada akhirnya berkontribusi pada pengembangan keterampilan abad ke-21 pada siswa. Autotalker, komponen tap, menampilkan kemampuan AI dalam menghasilkan video yang disinkronkan bibir dari petunjuk dan gambar teks, meningkatkan pengalaman pendidikan secara keseluruhan bagi siswa.
Ini menggunakan beberapa perpustakaan, termasuk:
Fitur-fitur ini secara kolektif berkontribusi pada pembuatan video yang disinkronkan bibir dari petunjuk teks input dan gambar, dengan dukungan untuk berbagai bahasa dan subtitle dalam bahasa Inggris.
Python 3.10.6
Kunci API dari Google AI.
FFMPEG terpasang.
Pytorch terpasang. Pastikan sistem Anda mendukung CUDA.
Imagemagick terpasang. Ini diperlukan untuk Moviepy.
Sadtalker diinstal.
Catatan: Pastikan GPU Anda memiliki minimal 4 GB VRAM dengan dukungan untuk CUDA.
Instal Python 3.10.6:
Instal FFMPEG:
Instal Imagemagick:
Klon Repositori Autotalker:
git clone https://github.com/Pmking27/AutoTalker
cd AutoTalkerUnduh Sadtalker dengan model dan bobot:
python download_models.pyJalankan perintah di atas dan tunggu sampai menunjukkan "unduhan selesai." Ini akan mengunduh Sadtalker bersama dengan model dan bobot yang diperlukan.
Buat lingkungan virtual:
python -m venv venvAktifkan lingkungan virtual:
source venv/bin/activate. v env S cripts a ctivateInstal dependensi:
pip install -r requirements.txtInstal Pytorch dengan CUDA:
pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118Sekarang, Anda telah berhasil mengatur lingkungan untuk proyek, memastikan GPU Anda memenuhi persyaratan yang ditentukan.
Proyek ini memiliki struktur berikut:
.
├── checkpoints # Model checkpoints (SadTalker)
│ ├── _MACOSX
│ ├── mapping_00109-model.pth.tar
│ ├── mapping_00229-model.pth.tar
│ ├── SadTalker_V0.0.2_256.safetensors
│ └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights # Weights for GFPGAN enhancer
│ ├── _MACOSX
│ ├── alignment_WFLW_4HG.pth
│ ├── detection_Resnet50_Final.pth
│ ├── GFPGANv1.4.pth
│ └── parsing_parsenet.pth
├── SadTalker # Folder containing SadTalker code
│ ├── app_sadtalker.py
│ ├── cog.yaml
│ ├── inference.py
│ ├── launcher.py
│ ├── LICENSE
│ ├── predict.py
│ ├── quick_demo.ipynb
│ ├── README.md
│ ├── req.txt
│ ├── requirements.txt
│ ├── requirements3d.txt
│ ├── webui.bat
│ └── webui.sh
├── venv # Virtual environment folder
├── download_models.py # Models download script
├── main.py # Main Python script
├── requirements.txt # All required dependencies list txt file
├── subtitles.py # Audio Enhacing and subtitles creation script
└── tts.py # Text To Speech into .wav file creation script
Aktifkan lingkungan virtual:
Konfigurasikan Kunci API Gemini Pro:
main.pygenai.configure(api_key="add your key here") ."add your key here" dengan kunci API Gemini Pro Anda yang sebenarnya.Jalankan skrip utama dan web gradio UI:
iface.launch() bagian) dari skrip.Jalankan Autotalker dan Luncurkan Gradio:
python main.pyAccess Gradio Web UI:
Jelajahi antarmuka:
Kirim dan Tunggu:
Ulasan output:
Jelajahi subtitle (jika diaktifkan):
Ulangi dan bereksperimen:
Tutup gradio ui:
Dengan mengikuti langkah-langkah gabungan ini, Anda dapat menjalankan autotalker dengan mulus, berinteraksi dengan UI Web Gradio, dan mengalami video yang disinkronkan bibir yang dihasilkan.
Kami menghargai minat Anda untuk berkontribusi pada proyek kami! Untuk memastikan pengalaman yang lancar dan kolaboratif, silakan ikuti pedoman ini:
Fork The Repository:
Klon Repositori:
git clone https://github.com/YourUsername/AutoTalker.gitBuat cabang:
git checkout -b feature/your-feature-nameMembuat perubahan:
Melakukan perubahan:
git commit -m " Add your commit message here "Dorong Perubahan:
git push origin feature/your-feature-nameBuat Permintaan Tarik:
Tinjau dan Berkolaborasi:
Squash berkomitmen (jika perlu):
Menggabungkan:
Area yang Membutuhkan Bantuan: Implementasi TTS seperti manusia
Jika Anda tertarik untuk membuat dampak yang signifikan, pertimbangkan berkontribusi pada implementasi teks-ke-speech (TTS) manusia untuk beragam bahasa, termasuk bahasa regional India. Fokus pada peningkatan kemampuan TTS untuk suara pria dan wanita.
Mengingat beragam lanskap linguistik di India, kontribusi untuk mendukung bahasa daerah India di TT sangat dihargai. Bahasa -bahasa ini mungkin termasuk, tetapi tidak terbatas pada:
Upaya Anda dalam mengimplementasikan TTS untuk bahasa -bahasa ini akan secara signifikan berkontribusi untuk membuat konten pendidikan dapat diakses oleh audiens yang lebih luas, terutama di daerah dengan latar belakang linguistik yang beragam.
Terima kasih telah mempertimbangkan kontribusi penting ini untuk implementasi TTS seperti manusia! Pekerjaan Anda akan memainkan peran penting dalam membuat konten pendidikan inklusif dan dapat diakses oleh pelajar dari berbagai latar belakang linguistik. ?
Proyek ini dilisensikan di bawah lisensi MIT.
Proyek ini mengakui proyek open-source berikut dan kontributor mereka:
Google AI Python SDK: Google AI Python SDK memungkinkan pengembang untuk menggunakan model AI generatif canggih Google (seperti Gemini dan Palm) untuk membangun fitur dan aplikasi bertenaga AI.
Sadtalker: [CVPR 2023] Sadtalker: Belajar koefisien gerakan 3D realistis untuk animasi wajah tunggal yang digerakkan oleh audio-driven. Proyek oleh OpenTalker.
Pedalboard: Perpustakaan Python untuk bekerja dengan audio, dikembangkan oleh Spotify.
Whisper: Pengenalan ucapan yang kuat melalui pengawasan lemah skala besar, proyek open-source oleh Openai.
Transformers dengan memeluk wajah : ? Transformers: Pembelajaran mesin canggih untuk Pytorch, TensorFlow, dan Jax.
Accelerate dengan memeluk Wajah: Cara sederhana untuk melatih dan menggunakan model Pytorch dengan multi-GPU, TPU, presisi campuran.
Optimum dengan memeluk wajah: Akselerasi pelatihan dan kesimpulan? Transformer dan? Diffusers dengan alat optimisasi perangkat keras yang mudah digunakan.
Bark oleh Suno Ai : ? Model audio generatif yang dipicu teks.
Pytorch: Tensor dan jaringan saraf dinamis di Python dengan akselerasi GPU yang kuat.
Proyek -proyek ini secara signifikan berkontribusi pada pengembangan dan fungsionalitas Autotalker, dan kami menyampaikan terima kasih kami kepada pengembang dan pemelihara masing -masing.