ผู้ประกาศข่าว Generative-AI
นำเสนอให้คุณ Keezum AI Newsreader !
ยินดีต้อนรับสู่ที่เก็บข่าว AI Newsreader! โครงการนี้เป็นการสาธิตวิธีการใช้เครื่องมือ AI ที่สามารถใช้ร่วมกันได้อย่างไรเพื่อสร้างอวตารที่มีความซับซ้อนและมีชีวิตชีวา
ข้อจำกัดความรับผิดชอบ: ล้อเล่นอย่าลังเลที่จะใช้ตามความสะดวกสบายของคุณ
เยี่ยมชมลิงค์นี้เพื่อดูวิดีโอสาธิตเพื่อดู Macy ในการดำเนินการซึ่งเธอพูดสั้น ๆ เกี่ยวกับยาสองชนิดที่ระบุโดยทั่วไป
ผลลัพธ์นั้นค่อนข้างน่าประทับใจและจะดีขึ้นเมื่อเวลาผ่านไปเนื่องจากความเร็วที่ AI Generative กำลังดีขึ้น ในการสร้างตัวอย่างนี้ฉันใช้เวลา 0 ดอลลาร์และเพียง 25 นาที
นี่คือเครื่องมือที่ฉันใช้:
- Midjourney เพื่อสร้างภาพของเภสัชกรหญิง
- chatgpt ของ Openai เพื่อสร้างสคริปต์สำหรับ Newsheadlines
- AI วิดีโอสำคัญของ Elevenlabs เพื่อสร้างเสียงจากสคริปต์ chatgpt
- Creative Reality Studio ของ D-ID เพื่อสร้างวิดีโอ Avatar ภาพเคลื่อนไหวที่เป็นจริงที่ซิงค์ด้วยเสียง (ทดลองใช้ฟรี)
คู่มือแบบทีละขั้นตอน
(1) Midjourney - การสร้างภาพ
- เราต้องการใบหน้าเพื่อเป็นตัวแทนของอวตารของเราและเราสามารถใช้เครื่องมือสร้างภาพเช่น Midjourney เพื่อทำเช่นนั้น
- Midjourney เป็นบริการ AI ฟรีโดย Openai ที่สร้างภาพจากคำอธิบายข้อความ
- การตั้งค่า:
- Midjourney ทำงานอย่างสมบูรณ์ใน Discord ดังนั้นให้แน่ใจว่าคุณสมัครใช้งานบัญชี Discord (ซึ่งฟรี)
- เยี่ยมชมลิงค์ไซต์ Midjourney นี้ซึ่งจะนำคุณไปสู่การเชิญ Discord โดยอัตโนมัติ
- ยอมรับคำเชิญ Discord ถึง Midjourney เลือกที่จะยังคงไม่ลงรอยกัน
- คลิกที่ปุ่ม Midjourney (พร้อมไอคอนเรือ) และเลือกห้องใหม่ใด ๆ เช่น
newbies-24 - ในบรรทัดแชทพิมพ์
/imagine ตามด้วยพรอมต์คำอธิบายของคุณ ตัวอย่างเช่นพรอมต์ที่ฉันใช้คือ "ภาพถ่ายมืออาชีพด้านบนที่มีคุณภาพสูงของนักข่าวสื่อหญิงในเสื้อโค้ทสีแดงที่มีพื้นหลังห้องข่าว" กด Enter หลังจากพิมพ์และให้ Midjourney สักครู่เพื่อสร้างภาพ - เมื่อเสร็จแล้วคุณจะเห็นผลลัพธ์ของสี่ภาพ ด้านล่างชุดภาพคุณจะเห็นชุดปุ่ม U1-U4 และ V1-V4
- ภาพทั้งสี่จะถูกกำหนดหมายเลขตามเข็มนาฬิกาจากซ้ายบน หากต้องการรับรูปแบบใหม่ในสิ่งที่คุณชอบเลือก "v1" (หรือ v2, v3 หรือ v4) และเพื่อรับสำเนาความละเอียดสูงเลือก "u1" (หรือ u2, u3 หรือ u4)
- เมื่อคุณได้รับตัวแปรความละเอียดสูงที่เลือกโดยเลือกปุ่ม U หนึ่งปุ่มให้คลิกที่ภาพและเลือก 'เปิดในเบราว์เซอร์' จากนั้นคุณสามารถบันทึกภาพความละเอียดสูงบนเครื่องในพื้นที่ของคุณ
(2) Playground Chatgpt - การสร้างข้อความ
- เนื่องจากทุกคนที่ใช้ CHATGPT ดังนั้นวันนี้จะช้าลงเล็กน้อยและไม่ใช่ทุกคนที่สนใจจ่ายเงินเพื่อให้เราสามารถใช้ ChatgptPlayground เพื่อทำงานของเราได้อย่างรวดเร็วเราต้องมีสคริปต์ข่าวข่าวที่สามารถให้ข่าวได้ ในการทำเช่นนั้นเราสามารถใช้ chatgptplayground
- Chatgpt เป็นแชทบ็อตที่พัฒนาโดย OpenAI และเปิดตัวในเดือนพฤศจิกายน 2565 มันถูกสร้างขึ้นบนรุ่น GPT-3 ของ OpenAI ของโมเดลภาษาขนาดใหญ่ของ OpenAI
- การตั้งค่า:
- เยี่ยมชมลิงค์นี้ไปยัง Access ChatGPT (คุณจะต้องเข้าสู่ระบบตามลำดับ)
- ในส่วนพรอมต์ให้ป้อนคำอธิบายที่เกี่ยวข้องสำหรับสคริปต์การให้คำปรึกษา ตัวอย่างเช่นพรอมต์ที่ฉันใช้มีดังนี้: "สร้างสคริปต์ที่แนะนำตัวเองเป็นคนแรกในฐานะผู้ประกาศข่าวชื่อ Keezum จากนั้นพูดถึงหัวข้อข่าวของข่าวที่มีคะแนนเริ่มต้นและให้ข้อมูลข่าวบางอย่างโดยมีขีด จำกัด สูงสุดสองถึงสามบรรทัด"
- จากเอาต์พุตบนหน้าจอ Chatgpt คัดลอกและบันทึกข้อความที่สร้างขึ้นในไฟล์ข้อความบนเครื่องท้องถิ่นของคุณ
(3) Elevenlabs-การสร้างข้อความเป็นคำพูด
- ต่อไปเราต้องการแปลงข้อความสคริปต์ CHATGPT เป็นคลิปเสียงที่เป็นธรรมชาติ เราสามารถทำได้ด้วยเครื่องมือฟรีเช่น Prime Voice AI (โดย Elevenlabs)
- Prime Voice AI เป็นซอฟต์แวร์คำพูด AI ที่สมจริงและหลากหลายซึ่งนำเสียงที่น่าสนใจที่สุดร่ำรวยและมีชีวิตชีวาให้กับผู้สร้างและผู้จัดพิมพ์ที่กำลังมองหาเครื่องมือที่ดีที่สุดสำหรับการเล่าเรื่อง
- การตั้งค่า:
- เยี่ยมชมหน้า Elevenlabs และสร้างบัญชีฟรี
- ในหน้าการสังเคราะห์คำพูดเลือกเสียงเฉพาะในการตั้งค่าวางสคริปต์ข้อความลงในส่วนข้อความและคลิกสร้าง เสียงที่ฉันเลือกคือ
premade/Domi เพราะฉันพบว่ามันมีชีวิตชีวาและเป็นธรรมชาติมากที่สุด การตั้งค่ายังสามารถปรับได้ตามความมั่นคงและความชัดเจน - ฉันทำให้สคริปต์สั้นลงเล็กน้อยโดยการลบส่วนของยาแอมโลดิพีนยาเสพติดเพราะฉันไม่ต้องการให้การสาธิตยาวเกินไป
- มีวงเงินเครดิตสำหรับบัญชีฟรีดังนั้นให้แน่ใจว่าคุณใช้อย่างชาญฉลาดสำหรับเสียงที่คุณต้องการสร้าง
- ดาวน์โหลดและบันทึกไฟล์. mp3 (ชื่อ 'synthesized_audio.mp3') ไฟล์บนเครื่องท้องถิ่นของคุณ
(4) D -ID - Avatar Talking Avatar (และ Audio Sync) รุ่น
- สุดท้ายก็ถึงเวลาที่จะนำภาพเภสัชกรและเสียงให้คำปรึกษาเข้าด้วยกันเป็นวิดีโอที่มีแสง ในการทำเช่นนั้นเราสามารถใช้เครื่องมือเช่น D-ID
- เทคโนโลยี AI ที่สร้างสรรค์ของ D-ID ถ่ายภาพใบหน้าและเปลี่ยนเป็นวิดีโอคุณภาพสูง เมื่อคลิกเพียงปุ่มเดียวมันสามารถรวมรูปภาพเข้ากับเสียงหรือข้อความเพื่อให้นิพจน์และคำพูด
- การตั้งค่า:
- เยี่ยมชมเว็บไซต์ D-ID และสร้างบัญชีทดลองใช้ฟรี
- เลือกปุ่มสร้างวิดีโอเพื่อเริ่มสร้างวิดีโอใหม่
- เพิ่มภาพเภสัชกร Midjourney ของคุณเป็นภาพผู้นำเสนอ
- อัปโหลดเสียง CHATGPT Scripted ของเราในการ
Upload your own voice ทางด้านขวา - คลิกปุ่ม
Generate Video ที่ด้านบนขวาและรอผลงานชิ้นเอกของคุณพร้อมสำหรับการดาวน์โหลด!
การพึ่งพาอาศัยกัน
โครงการนี้ต้องใช้การพึ่งพาต่อไปนี้:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
งานในอนาคต
เราวางแผนที่จะปรับแต่งและปรับปรุงโครงการนี้อย่างต่อเนื่องโดยการรวมเครื่องมือ AI ที่เกิดขึ้นได้มากขึ้นและขยายการทำงานของ Avatar ผู้ประกาศข่าว นอกจากนี้เรายังยินดีต้อนรับการมีส่วนร่วมหรือข้อเสนอแนะจากชุมชน กิตติกรรมประกาศ
เราขอขอบคุณนักพัฒนาและนักวิจัยที่ Midjourney, Openai, Elevenlabs และ D-ID สำหรับเครื่องมือ AI ที่ยอดเยี่ยมของพวกเขาซึ่งทำให้โครงการนี้เป็นไปได้
ใบอนุญาต
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT - ดูไฟล์ใบอนุญาตสำหรับรายละเอียด