NEWSREADER GENERATIF-AI
Menyajikan kepada Anda, keezum AI Newsreader !
Selamat datang di Repositori AI Newsreader! Proyek ini merupakan demonstrasi bagaimana alat AI generatif dapat digunakan bersama untuk menciptakan avatar newsreader yang canggih dan dinamis.
️ Penafian: Hanya bercanda jangan ragu untuk menggunakannya sesuai kenyamanan Anda.
Kunjungi tautan ini untuk menonton video demo untuk melihat Macy beraksi, di mana dia secara singkat berbicara tentang dua obat yang umum diresepkan.
Hasilnya cukup mengesankan dan hanya akan menjadi lebih baik dari waktu ke waktu, mengingat kecepatan AI generatif meningkat. Untuk membuat demo ini, saya butuh 0 dolar dan hanya 25 menit.
Berikut adalah alat yang saya gunakan:
- Midjourney untuk menghasilkan gambar seorang apoteker wanita
- Openai's Chatgpt untuk menghasilkan skrip untuk newsheadlines
- Video Prime ElevenLabs AI untuk menghasilkan audio dari naskah chatgpt
- Studio Realitas Kreatif D-ID untuk menghasilkan video avatar animasi realistis yang disinkronkan dengan audio (uji coba gratis)
Panduan langkah demi langkah
(1) Midjourney - Generasi Gambar
- Kami membutuhkan wajah untuk mewakili avatar kami, dan kami dapat menggunakan alat pembuatan gambar seperti midjourney untuk melakukan hal itu
- Midjourney adalah layanan AI gratis oleh openai yang membuat gambar dari deskripsi tekstual
- Pengaturan:
- Midjourney bekerja sepenuhnya pada perselisihan, jadi pastikan Anda mendaftar untuk akun perselisihan (yang gratis).
- Kunjungi tautan situs midjourney ini, yang secara otomatis membawa Anda ke undangan perselisihan.
- Terima undangan Perselisihan ke Midjourney. Pilih untuk terus perselisihan.
- Klik tombol Midjourney (dengan ikon kapal) dan pilih salah satu kamar pendatang baru misalnya,
newbies-24 - Di jalur obrolan, ketik
/imagine diikuti dengan prompt deskripsi Anda. Sebagai contoh, prompt yang saya gunakan adalah "foto profesional tubuh bagian atas berkualitas tinggi dari seorang reporter berita media wanita dengan mantel merah dengan latar belakang ruang berita". Tekan Enter setelah mengetiknya, dan berikan Midjourney waktu untuk menghasilkan gambar. - Setelah selesai, Anda akan melihat output dari empat gambar. Di bawah set gambar, Anda akan melihat satu set tombol U1-U4, dan V1-V4.
- Keempat gambar diberi nomor searah jarum jam dari kiri atas. Untuk mendapatkan variasi baru pada yang Anda suka, pilih "V1" (atau V2, V3, atau V4), dan untuk mendapatkan salinan resolusi tinggi, pilih "U1" (atau U2, U3, atau U4).
- Setelah Anda mendapatkan varian resolusi tinggi yang dipilih dengan memilih salah satu tombol U, klik pada gambar dan pilih 'Open in Browser'. Anda kemudian dapat menyimpan gambar resolusi tinggi di mesin lokal Anda
(2) Playground Chatgpt - pembuatan teks
- Karena semua orang yang menggunakan chatgpt sehingga menjadi sedikit lambat akhir -akhir ini dan tidak semua orang tertarik untuk membayar uang sehingga kami dapat menggunakan chatgptplayground untuk melakukan tugas kami dengan sangat cepat. Kami membutuhkan skrip berita utama yang dapat memberikan berita. Untuk melakukan itu, kita dapat menggunakan chatgptplayground.
- ChatGPT adalah chatbot yang dikembangkan oleh Openai dan diluncurkan pada November 2022. Ini dibangun di atas keluarga GPT-3 dari model bahasa besar Openai.
- Pengaturan:
- Kunjungi tautan ini untuk mengakses chatgpt (Anda harus masuk sesuai)
- Di bagian prompt, masukkan deskripsi yang relevan untuk skrip konseling. Misalnya, prompt yang saya gunakan adalah sebagai berikut: "Buat skrip yang pertama kali memperkenalkan diri sebagai pembaca berita bernama Keezum, dan kemudian berbicara tentang berita utama berita dengan poin di awal dan memberikan beberapa info berita dengan batas dua hingga tiga baris max".
- Dari output pada layar chatgpt, salin dan simpan teks yang dihasilkan dalam file teks di mesin lokal Anda.
(3) Elevenlabs-Text-to-Speech Generation
- Selanjutnya, kami ingin mengonversi teks skrip chatgpt menjadi klip audio yang terdengar alami. Kita bisa melakukannya dengan alat gratis seperti prime voice ai (oleh sebelaslab)
- Prime Voice AI adalah perangkat lunak ucapan AI yang realistis dan serbaguna yang membawa suara yang paling menarik, kaya, dan hidup seperti pencipta dan penerbit yang mencari alat utama untuk bercerita.
- Pengaturan:
- Kunjungi halaman ElevenLabs dan buat akun secara gratis.
- Pada halaman Sintesis Pidato, pilih suara tertentu dalam pengaturan, tempel skrip teks ke bagian teks, dan klik menghasilkan. Suara yang saya pilih adalah
premade/Domi karena saya menemukan itu yang paling hidup dan alami. Pengaturan juga dapat disesuaikan sesuai untuk hal -hal seperti stabilitas dan kejelasan. - Saya sedikit memperpendek skrip dengan menghapus bagian tentang obat amlodipine karena saya tidak ingin demo terlalu lama.
- Ada batas kredit untuk akun gratis, jadi pastikan Anda menggunakannya dengan bijak untuk audio yang ingin Anda hasilkan.
- Unduh dan simpan file .mp3 (berjudul 'Synthesized_audio.mp3') di mesin lokal Anda.
(4) D -ID - Generasi Avatar Talk Fotorealistik (dan Sinkronisasi Audio)
- Terakhir, inilah saatnya untuk menyatukan gambar apoteker dan audio konseling bersama -sama ke dalam video fotorealistik. Untuk melakukannya, kita dapat menggunakan alat seperti D-ID.
- Teknologi AI kreatif D-ID mengambil gambar wajah dan mengubahnya menjadi video fotorealistik berkualitas tinggi. Dengan mengklik tombol, itu dapat menggabungkan gambar dengan audio atau teks untuk memberi mereka ekspresi dan ucapan.
- Pengaturan:
- Kunjungi situs web D-ID dan buat akun uji coba gratis
- Pilih tombol Buat Video untuk mulai membuat video baru
- Tambahkan gambar apoteker menengah Anda sebagai gambar presenter
- Unggah audio naskah chatgpt kami di
Upload your own voice di sebelah kanan. - Klik tombol
Generate Video di kanan atas dan tunggu mahakarya Anda siap untuk diunduh!
Dependensi
Proyek ini membutuhkan dependensi berikut:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
Pekerjaan di masa depan
Kami berencana untuk terus memperbaiki dan meningkatkan proyek ini dengan mengintegrasikan alat AI yang lebih generatif dan memperluas fungsionalitas avatar newsreader. Kami juga menyambut setiap kontribusi atau saran dari masyarakat. Ucapan Terima Kasih
Kami ingin mengucapkan terima kasih kepada pengembang dan peneliti di Midjourney, Openai, Elevenlabs, dan D-ID untuk alat AI generatif yang sangat baik, yang memungkinkan proyek ini menjadi mungkin.
Lisensi
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi untuk detailnya.