Unduh AutoTalker - Unduh Kode Sumber AutoTalker

AutoTalker

Kode Sumber AI

1.0.0

Unduh

Autotalker?

Video demo proyek

Lihat video demo untuk melihat Autotalker beraksi!

Whatsapp.video.2024-02-26.at.2.29.16.am.mp4

Contoh

Input prompt

"Jelaskan Python dan aplikasi mereka dalam 30 detik"

Gambar input

Video output

output_video.mp4

Deskripsi proyek

Proyek Apprentice (TAP)

Dalam lanskap yang berkembang pesat abad ke -21, pendidikan yang komprehensif sangat penting untuk mempersiapkan siswa dengan keterampilan yang diperlukan untuk berkembang dalam masyarakat modern. Proyek Apprentice (TAP) didedikasikan untuk menumbuhkan keterampilan penting abad ke-21 ini di antara anak-anak yang kurang terlayani yang terdaftar di pemerintah atau sekolah swasta berpenghasilan rendah.

TAP beroperasi di bawah payung Yayasan Mentorme, sebuah perusahaan terdaftar Bagian 8, dan dengan bangga didukung oleh lembaga -lembaga terhormat seperti Universitas Harvard, IIM Bangalore, dan Nudge Foundation. Sebagai mitra resmi dengan pemerintah Maharashtra dan Delhi, Tap memiliki dampak yang signifikan, menjangkau lebih dari 31.000 anak -anak melalui chatbot inovatifnya.

Pernyataan masalah

Sejumlah siswa sekolah menengah dan menengah yang mengejutkan-lebih dari 100 juta-dari komunitas berpenghasilan rendah di seluruh India tidak memiliki keterampilan abad ke-21 yang kritis, termasuk pembelajaran sosial & emosional (SEL) dan literasi keuangan. Sistem pendidikan publik tradisional-centric memperburuk masalah ini, yang mengarah pada statistik yang mengkhawatirkan bahwa 1 dari 2 anak yang lulus dari sistem pendidikan India dianggap tidak dapat dikerjakan karena tidak adanya keterampilan penting ini.

Statistik Literasi Keuangan:
- Hanya 16,7% siswa remaja India yang memiliki literasi keuangan dasar.
- Hanya 27% dari populasi orang dewasa India dianggap melek finansial.

Tujuan Pembangunan Berkelanjutan PBB (SDG)

Ketuk menyelaraskan misinya dengan beberapa SDG PBB:

Sasaran 1: Tidak Ada Kemiskinan
Sasaran 2: Nol Kelaparan
Tujuan 3: Kesehatan dan kesejahteraan yang baik
Sasaran 4: Pendidikan Kualitas
Tujuan 8: Pekerjaan yang Layak dan Pertumbuhan Ekonomi

Sistem saat ini

Proyek Apprentice (TAP), yang beroperasi di bawah Yayasan Mentorme, memberdayakan siswa yang kurang terlayani melalui Tap Buddy-whatsapp chatbot yang bertenaga kecerdasan buatan. Tap Buddy menawarkan pilihan berbasis video, membimbing siswa melalui proyek independen menggunakan personalisasi (yang dipelajari ML) dan dorongan dan konten berbasis AI bot. Video proyek belajar mandiri menumbuhkan keterampilan seperti kreativitas, kepercayaan diri, kesadaran diri, komunikasi, dan pemecahan masalah, melanggar hambatan mental dan menanamkan pola pikir pertumbuhan.

Tantangan dan inovasi

Saat penggunaan chatbot Tap terus tumbuh, proyek ini menghadapi tantangan dan mencari solusi inovatif:

Penciptaan Kursus: Memanfaatkan AI untuk menghasilkan konten di berbagai pilihan seperti pengkodean dan seni visual, yang bertujuan untuk mengatasi keterbatasan dalam pembuatan video curah karena kendala waktu manual.
Pembelajaran yang dipersonalisasi: Mempekerjakan AI untuk membuat tutorial pengkodean yang dipersonalisasi atau panduan proyek seni yang disesuaikan dengan gaya belajar individu dan tingkat keterampilan. Analisis AI Lanjutan ML/Open AI mengadaptasi konten berdasarkan kemajuan pelajar, memastikan pengalaman belajar yang disesuaikan.
Pembuatan Konten: Memanfaatkan AI untuk menghasilkan cuplikan kode, templat, atau ide desain untuk proyek seni, membimbing siswa di tingkat keterampilan mereka dan menyarankan opsi eksplorasi.
Eksplorasi Artistik: Merekomendasikan teknik dan gaya berdasarkan tingkat keterampilan anak, memperluas cakrawala artistik dengan membandingkan karya mereka dengan seniman atau gerakan seni terkenal.
Pengkodean Kreatif: Menggunakan AI untuk bertukar pikiran dan memberikan inspirasi untuk proyek pengkodean inovatif dan artistik.

Pendekatan dan solusi

Pendekatan saya untuk mengatasi tantangan yang dihadapi oleh TAP melibatkan memanfaatkan teknologi mutakhir, termasuk Natural Language Processing (NLP), Kecerdasan Buatan (AI), dan Pembelajaran Mesin (ML), untuk mengembangkan autotalker-komponen TAP yang bertujuan meningkatkan pengalaman pendidikan bagi siswa.

Autotalker menggunakan model dan perpustakaan AI canggih, seperti Suno Bark TTS untuk konversi teks-ke-bicara, AI Python SDK (Gemini Pro) generatif untuk pembuatan teks, dan sadtalker untuk audio sinkronisasi bibir dengan gerakan wajah dalam video. Dengan mengintegrasikan teknologi ini, Autotalker memungkinkan pembuatan konten video yang menarik dan informatif dari petunjuk dan gambar teks.

Selain itu, proyek ini menggabungkan fitur -fitur seperti pembelajaran yang dipersonalisasi, bantuan pembuatan konten, dan dukungan bahasa untuk memenuhi kebutuhan dan preferensi belajar yang beragam. Dengan memanfaatkan kekuatan AI, Autotalker memberdayakan para pendidik dan siswa untuk mengakses konten pendidikan berkualitas tinggi yang disesuaikan dengan kebutuhan masing-masing, sehingga mendorong pengembangan keterampilan abad ke-21 yang penting.

Melalui solusi inovatif ini, TAP bertujuan untuk merevolusi lanskap pendidikan, menjembatani kesenjangan dalam akses ke sumber belajar yang berkualitas dan memberdayakan siswa dari komunitas yang kurang terlayani untuk mewujudkan potensi penuh mereka di era digital.

Daftar isi

Tentang
Fitur
Memulai
- Prasyarat
- Instalasi
Penggunaan
Berkontribusi
Lisensi
Ucapan Terima Kasih

Tentang

Proyek ini berfokus pada peningkatan teknologi untuk membuat kursus baru, mempersonalisasikan yang sudah ada, dan meningkatkan proses penilaian, pada akhirnya berkontribusi pada pengembangan keterampilan abad ke-21 pada siswa. Autotalker, komponen tap, menampilkan kemampuan AI dalam menghasilkan video yang disinkronkan bibir dari petunjuk dan gambar teks, meningkatkan pengalaman pendidikan secara keseluruhan bagi siswa.

Ini menggunakan beberapa perpustakaan, termasuk:

Suno Bark TTS: Perpustakaan konversi teks-ke-bicara yang digunakan untuk menghasilkan audio dari petunjuk teks.
PyDub: Perpustakaan manipulasi audio untuk menangani file dan format audio.
Google.generativeai (Gemini Pro): AI Python SDK generatif Google digunakan untuk pembuatan teks.
Sadtalker: Model sinkronisasi bibir yang digunakan untuk menyinkronkan audio dengan gerakan wajah dalam video.
Openai Whisper: Perpustakaan untuk konversi ucapan-ke-teks, memungkinkan penyesuaian karakteristik suara.
Spotify Pedalboard: Perpustakaan Peningkatan Audio untuk meningkatkan kualitas dan efek file audio.
MoviePy: Perpustakaan pengeditan video yang memfasilitasi pemrosesan video dan tugas pengeditan.
Pytorch: Kerangka kerja pembelajaran yang mendalam yang digunakan untuk berbagai tugas pembelajaran mesin, termasuk fungsionalitas Sadtalker.
FFMPEG: Kerangka kerja multimedia yang digunakan untuk menangani data multimedia seperti file audio dan video.
Memeluk Face Transformers: Perpustakaan yang menyediakan model pra-terlatih dan berbagai utilitas untuk tugas pemrosesan bahasa alami.
BetterTransformer: jalur cepat siap-produksi untuk mempercepat penyebaran model transformator dengan kinerja tinggi pada CPU dan GPU. Fitur jalur cepat berfungsi secara transparan untuk model yang didasarkan langsung pada Pytorch Core NN.
Numpy: Perpustakaan komputasi numerik yang kuat untuk menangani array dan matriks multi-dimensi yang besar.
Gradio: Perpustakaan yang ramah pengguna untuk membuat komponen UI yang dapat disesuaikan di sekitar model pembelajaran mesin, memungkinkan penyebaran dan interaksi yang mudah dengan model melalui antarmuka web.

Fitur

Konversi Teks-ke-Pidato: Memanfaatkan Suno Bark TTS untuk mengonversi petunjuk teks menjadi file audio (format WAV).
Manipulasi audio: menggunakan PyDub untuk tugas manipulasi audio, meningkatkan kualitas audio dan menerapkan efek yang diinginkan.
Teks AI Generatif: Memanfaatkan AI Python SDK generatif Google (Gemini Pro) untuk pembuatan teks, memberikan petunjuk yang beragam dan relevan secara kontekstual.
Lip Syncing: Mengintegrasikan Sadtalker, model sinkronisasi bibir, untuk menyinkronkan audio yang dihasilkan dengan gerakan wajah dalam video.
Konversi wicara-ke-teks: Menggabungkan openai Whisper untuk konversi ucapan-ke-teks, memungkinkan penyesuaian karakteristik suara.
Peningkatan Audio: Memanfaatkan Pedalboard Spotify untuk meningkatkan dan menerapkan efek pada file audio, meningkatkan kualitas audio secara keseluruhan.
Pengeditan Video: Menerapkan MoviePy, perpustakaan pengeditan video, untuk tugas pemrosesan dan pengeditan video, termasuk pembuatan video yang disinkronkan bibir akhir.
Kerangka pembelajaran yang mendalam: memanfaatkan Pytorch untuk kemampuan pembelajarannya yang mendalam, penting untuk melaksanakan fungsionalitas Sadtalker.
Penanganan multimedia: Menggunakan FFMPEG, kerangka kerja multimedia, untuk menangani data multimedia seperti file audio dan video selama pemrosesan.
Pemrosesan Bahasa Alami: Mengintegrasikan transformator wajah yang memeluk, menawarkan model dan utilitas yang terlatih untuk tugas pemrosesan bahasa alami.
Jalur Cepat untuk Model Transformer: Menggabungkan BetterTransformer, jalur cepat siap-produksi untuk penyebaran model transformator yang dipercepat pada CPU dan GPU.
Perhitungan numerik: Bergantung pada Numpy untuk perhitungan numerik yang kuat, terutama untuk menangani array dan matriks multi-dimensi yang besar.
Komponen UI yang ramah pengguna: Mengintegrasikan Gradio, perpustakaan yang ramah pengguna, untuk membuat komponen UI yang dapat disesuaikan di sekitar model pembelajaran mesin, memfasilitasi penyebaran dan interaksi yang mudah melalui antarmuka web.
Dukungan Bahasa: Mendukung banyak bahasa, termasuk bahasa Inggris, Cina (disederhanakan), Prancis, Jerman, Hindi, Italia, Jepang, Korea, Polandia, Portugis, Rusia, Spanyol, dan Turki.
Dukungan subtitle: Saat ini hanya tersedia untuk bahasa Inggris.

Fitur-fitur ini secara kolektif berkontribusi pada pembuatan video yang disinkronkan bibir dari petunjuk teks input dan gambar, dengan dukungan untuk berbagai bahasa dan subtitle dalam bahasa Inggris.

Memulai

Prasyarat

Python 3.10.6
Kunci API dari Google AI.
FFMPEG terpasang.
Pytorch terpasang. Pastikan sistem Anda mendukung CUDA.
Imagemagick terpasang. Ini diperlukan untuk Moviepy.
Sadtalker diinstal.
Catatan: Pastikan GPU Anda memiliki minimal 4 GB VRAM dengan dukungan untuk CUDA.

Instalasi

Instal Python 3.10.6:
- Unduh dan instal Python 3.10.6. Perhatikan bahwa versi 3.11 dan 3.12 tidak didukung.
Instal FFMPEG:
- Ikuti instruksi yang sesuai untuk sistem Anda.
Instal Imagemagick:
- Unduh dan instal Imagemagick.

Klon Repositori Autotalker:

git clone https://github.com/Pmking27/AutoTalker
cd AutoTalker

Unduh Sadtalker dengan model dan bobot:
```
python download_models.py
```
Jalankan perintah di atas dan tunggu sampai menunjukkan "unduhan selesai." Ini akan mengunduh Sadtalker bersama dengan model dan bobot yang diperlukan.
Buat lingkungan virtual:
```
python -m venv venv
```

Aktifkan lingkungan virtual:

Di Linux/Mac:
```
 source venv/bin/activate
```
Di Windows:
```
. v env S cripts a ctivate
```

Instal dependensi:
```
pip install -r requirements.txt
```

Instal Pytorch dengan CUDA:

pip install torch==2.0.0 torchvision==0.15.1 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118

Sekarang, Anda telah berhasil mengatur lingkungan untuk proyek, memastikan GPU Anda memenuhi persyaratan yang ditentukan.

Penggunaan

Struktur proyek

Proyek ini memiliki struktur berikut:

 .
├── checkpoints    # Model checkpoints (SadTalker)
│   ├── _MACOSX
│   ├── mapping_00109-model.pth.tar
│   ├── mapping_00229-model.pth.tar
│   ├── SadTalker_V0.0.2_256.safetensors
│   └── SadTalker_V0.0.2_512.safetensors
│── gfpgan_weights  # Weights for GFPGAN enhancer
│   ├── _MACOSX
│   ├── alignment_WFLW_4HG.pth
│   ├── detection_Resnet50_Final.pth
│   ├── GFPGANv1.4.pth
│   └── parsing_parsenet.pth
├── SadTalker   # Folder containing SadTalker code
│   ├── app_sadtalker.py
│   ├── cog.yaml
│   ├── inference.py
│   ├── launcher.py
│   ├── LICENSE
│   ├── predict.py
│   ├── quick_demo.ipynb
│   ├── README.md
│   ├── req.txt
│   ├── requirements.txt
│   ├── requirements3d.txt
│   ├── webui.bat
│   └── webui.sh
├── venv                 # Virtual environment folder
├── download_models.py   # Models download script
├── main.py              # Main Python script
├── requirements.txt     # All required dependencies list txt file
├── subtitles.py         # Audio Enhacing and subtitles creation script
└── tts.py               # Text To Speech into .wav file creation script

Langkah -langkah untuk menjalankan Autotalker dan membuka Web UI Gradio:

Aktifkan lingkungan virtual:
- Aktifkan lingkungan virtual yang dibuat sebelumnya.
Konfigurasikan Kunci API Gemini Pro:
- Buka file main.py
- Temukan baris: genai.configure(api_key="add your key here") .
- Ganti "add your key here" dengan kunci API Gemini Pro Anda yang sebenarnya.
Jalankan skrip utama dan web gradio UI:
- Salin kode gradio yang disediakan ( iface.launch() bagian) dari skrip.
Jalankan Autotalker dan Luncurkan Gradio:
- Di terminal yang sama di mana lingkungan virtual Anda aktif, jalankan skrip Autotalker bersama dengan UI Web Clashio.
```
python main.py
```
Access Gradio Web UI:
- Setelah menjalankan skrip, Gradio akan menyediakan tautan (biasanya localhost) di mana UI web di -host. Buka tautan itu di browser web Anda.
Jelajahi antarmuka:
- Anda sekarang akan memiliki akses ke antarmuka UI Web Gradio.
- Berinteraksi dengan komponen input yang disediakan seperti kotak teks, tombol radio, slider, dan opsi unggahan gambar.
Kirim dan Tunggu:
- Klik pada "Luncurkan Antarmuka" atau tombol serupa untuk mengirimkan input Anda.
- Gradio akan memproses input Anda, menghasilkan output, dan menampilkan hasilnya di UI Web.
Ulasan output:
- Outputnya mungkin video dengan atau tanpa subtitle, tergantung pada konfigurasi Anda.
Jelajahi subtitle (jika diaktifkan):
- Jika Anda mengaktifkan dukungan subtitle, jelajahi subtitle yang dihasilkan untuk video.
Ulangi dan bereksperimen:
- Jangan ragu untuk bereksperimen dengan input, permintaan, dan parameter yang berbeda untuk menghasilkan berbagai output.
Tutup gradio ui:
- Setelah selesai, tutup UI Web Gradio.

Dengan mengikuti langkah-langkah gabungan ini, Anda dapat menjalankan autotalker dengan mulus, berinteraksi dengan UI Web Gradio, dan mengalami video yang disinkronkan bibir yang dihasilkan.

Berkontribusi

Kami menghargai minat Anda untuk berkontribusi pada proyek kami! Untuk memastikan pengalaman yang lancar dan kolaboratif, silakan ikuti pedoman ini:

Fork The Repository:
- Mulailah dengan membayar repositori ini ke akun GitHub Anda.

Klon Repositori:

git clone https://github.com/YourUsername/AutoTalker.git

Buat cabang:
- Untuk setiap kontribusi, buat cabang baru dengan nama deskriptif.
```
git checkout -b feature/your-feature-name
```
Membuat perubahan:
- Terapkan perangkat tambahan atau perbaikan Anda. Pastikan perubahan Anda selaras dengan tujuan proyek.
Melakukan perubahan:
- Komitlah perubahan Anda dengan pesan komit yang jelas dan ringkas.
```
git commit -m " Add your commit message here "
```
Dorong Perubahan:
- Dorong perubahan Anda ke repositori bercabang Anda.
```
git push origin feature/your-feature-name
```
Buat Permintaan Tarik:
- Buka permintaan tarik dari repositori bercabang Anda ke repositori utama.
- Berikan informasi terperinci tentang perubahan Anda, menguraikan tujuan dan dampak.
Tinjau dan Berkolaborasi:
- Terlibat dalam diskusi, menanggapi umpan balik, dan berkolaborasi dengan masyarakat untuk memperbaiki kontribusi Anda.
Squash berkomitmen (jika perlu):
- Jika permintaan tarikan Anda berisi beberapa komit, pertimbangkan untuk menghancurkannya menjadi satu komitmen yang terstruktur dengan baik.
Menggabungkan:
- Setelah permintaan tarik Anda disetujui, itu akan digabungkan ke dalam repositori utama.
Area yang Membutuhkan Bantuan: Implementasi TTS seperti manusia

Jika Anda tertarik untuk membuat dampak yang signifikan, pertimbangkan berkontribusi pada implementasi teks-ke-speech (TTS) manusia untuk beragam bahasa, termasuk bahasa regional India. Fokus pada peningkatan kemampuan TTS untuk suara pria dan wanita.

Bahasa yang didukung untuk implementasi TTS seperti manusia:

Arab (AR)
Bengali (bn)
Bulgaria (BG)
Kroasia (SDM)
Ceko (CS)
Denmark (DA)
Belanda (NL)
Estonian (ET)
Finlandia (FI)
Yunani (El)
Ibrani (IW)
Hongaria (HU)
Indonesia (ID)
Latvian (LV)
Lithuanian (LT)
Norwegia (Tidak)
Rumania (RO)
Serbian (SR)
Slovak (SK)
Slovenian (SL)
Swahili (SW)

Fokus tambahan pada bahasa daerah India:

Mengingat beragam lanskap linguistik di India, kontribusi untuk mendukung bahasa daerah India di TT sangat dihargai. Bahasa -bahasa ini mungkin termasuk, tetapi tidak terbatas pada:

Hindi
Tamil
Telugu
Kannada
Malayalam
Punjabi
Gujarati
Marathi
Benggala
Odia
Orang Assam
Urdu

Upaya Anda dalam mengimplementasikan TTS untuk bahasa -bahasa ini akan secara signifikan berkontribusi untuk membuat konten pendidikan dapat diakses oleh audiens yang lebih luas, terutama di daerah dengan latar belakang linguistik yang beragam.

Terima kasih telah mempertimbangkan kontribusi penting ini untuk implementasi TTS seperti manusia! Pekerjaan Anda akan memainkan peran penting dalam membuat konten pendidikan inklusif dan dapat diakses oleh pelajar dari berbagai latar belakang linguistik. ?

Lisensi

Proyek ini dilisensikan di bawah lisensi MIT.

Ucapan Terima Kasih

Proyek ini mengakui proyek open-source berikut dan kontributor mereka:

Google AI Python SDK: Google AI Python SDK memungkinkan pengembang untuk menggunakan model AI generatif canggih Google (seperti Gemini dan Palm) untuk membangun fitur dan aplikasi bertenaga AI.
Sadtalker: [CVPR 2023] Sadtalker: Belajar koefisien gerakan 3D realistis untuk animasi wajah tunggal yang digerakkan oleh audio-driven. Proyek oleh OpenTalker.
Pedalboard: Perpustakaan Python untuk bekerja dengan audio, dikembangkan oleh Spotify.
Whisper: Pengenalan ucapan yang kuat melalui pengawasan lemah skala besar, proyek open-source oleh Openai.
Transformers dengan memeluk wajah : ? Transformers: Pembelajaran mesin canggih untuk Pytorch, TensorFlow, dan Jax.
Accelerate dengan memeluk Wajah: Cara sederhana untuk melatih dan menggunakan model Pytorch dengan multi-GPU, TPU, presisi campuran.
Optimum dengan memeluk wajah: Akselerasi pelatihan dan kesimpulan? Transformer dan? Diffusers dengan alat optimisasi perangkat keras yang mudah digunakan.
Bark oleh Suno Ai : ? Model audio generatif yang dipicu teks.
Pytorch: Tensor dan jaringan saraf dinamis di Python dengan akselerasi GPU yang kuat.

Proyek -proyek ini secara signifikan berkontribusi pada pengembangan dan fungsionalitas Autotalker, dan kami menyampaikan terima kasih kami kepada pengembang dan pemelihara masing -masing.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-24
ukuran 438.64KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua