Generative-AI Newsreder
Представляя вам, Keezum Ai Newsreader !
Добро пожаловать в репозиторий AI Newsreder! Этот проект является демонстрацией того, как генеративные инструменты ИИ можно использовать вместе для создания сложного и динамичного аватара новостей.
️ Отказ от ответственности: просто шучу, не стесняйтесь использовать его в соответствии с вашим комфортом.
Посетите эту ссылку, чтобы посмотреть демонстрационное видео, чтобы увидеть Мэйси в действии, где она кратко рассказывает о двух обычно предписанных лекарствах.
Результат довольно впечатляет и со временем будет только лучше, учитывая скорость, с которой генеративный ИИ улучшается. Чтобы создать эту демонстрацию, мне потребовалось 0 долларов и всего 25 минут.
Вот инструменты, которые я использовал:
- Midjourney , чтобы генерировать изображение женского фармацевта
- Openai's Chatgpt для создания скрипта для NewSheadlines
- Prime Video AI ElevenLabs для создания звука из сценария CHATGPT
- Студия творческой реальности D-ID для создания реалистичного анимированного видео аватара, синхронизированного с аудио (бесплатная пробная версия)
Пошаговое руководство
(1) Midjourney - генерация изображений
- Нам нужно лицо, чтобы представить наш аватар, и мы можем использовать такие инструменты генерации изображений, как Midyrney, чтобы сделать именно это
- Midjourney - это бесплатная служба искусственного интеллекта от Openai, которая создает изображения из текстовых описаний
- Настраивать:
- Midjourney работает полностью на Discord, поэтому убедитесь, что вы зарегистрировались на учетной записи Discord (что бесплатно).
- Посетите эту ссылку на сайт Midjourney, которая автоматически доставляет вас к приглашению на Discord.
- Примите приглашение на раздор в Мидюрни. Выберите продолжать разногласия.
- Нажмите на кнопку Midjourney (со значком корабля) и выберите любую из новичков, например,
newbies-24 - В линии чата введите
/imagine за которым следует ваше приглашение на описание. Например, подсказка, которую я использовал, была «высококачественная профессиональная фотография верхней части тела женского репортера новостных новостей в красном пальто с новостным фоном». Нажмите Enter после ввода его, и дайте Миджурни некоторое время, чтобы сгенерировать изображения. - После этого вы увидите вывод из четырех изображений. Ниже набора изображений вы увидите набор кнопок U1-U4 и V1-V4.
- Четыре изображения пронумерованы, идущие по часовой стрелке с левого верхнего. Чтобы получить новый вариант на тот, который вам нравится, выберите «V1» (или V2, V3 или V4), и чтобы получить копию высокого разрешения, выберите «U1» (или U2, U3 или U4).
- Как только вы получите выбранную вариант высокого разрешения, выбрав одну из кнопок U, нажмите на изображение и выберите «Открыть в браузере». Затем вы можете сохранить изображение высокого разрешения на местной машине
(2) Playground Chatgpt - генерация текста
- Поскольку все, кто использует CHATGPT, в наши дни он немного медленным, и не все заинтересованы в оплате денег, чтобы мы могли использовать ChatgptPlayground для выполнения нашей задачи очень быстро. Нам нужен сценарий заголовков новостей, который может предоставить новости. Для этого мы можем использовать Chatgptplayground.
- CHATGPT-это чат-бот, разработанный OpenAI и запущенный в ноябре 2022 года. Он построен на вершине семейства GPT-3 в GPT-3 в GPT-3.
- Настраивать:
- Посетите эту ссылку, чтобы получить доступ к CHATGPT (вам нужно будет соответственно войти в систему)
- В разделе «Приглашение» введите соответствующее описание для сценария консультирования. Например, подсказка, которую я использовал, заключается в следующем: «Создайте сценарий, который сначала представляет себя как читатель новостей по имени Keezum, а затем рассказывает о заголовках новостей с очками в начале и дает некоторую информацию о новостях с пределом максимума от двух до трех строк».
- На выводе на экране CHATGPT скопируйте и сохраните сгенерированный текст в текстовом файле на локальной машине.
(3) ElevenLabs-поколение текста в речь
- Затем мы хотим преобразовать текст скрипта CHATGPT в естественный звуковой аудиоклип. Мы можем сделать это с помощью бесплатных инструментов, таких как Prime Voice AI (по Elevenlabs)
- Prime Voice AI - это реалистичное и универсальное программное обеспечение для искусственного интеллекта, которое приносит самые убедительные, богатые и жизненные голоса создателям и издателям, ищущим окончательные инструменты для рассказывания историй.
- Настраивать:
- Посетите страницу ElevenLabs и создайте учетную запись бесплатно.
- На странице синтеза речи выберите конкретный голос в настройках, вставьте текстовый скрипт в текстовый раздел и нажмите «Создать». Голос, который я выбрал, был
premade/Domi так как я обнаружил, что он самый живой и естественный. Настройки также могут быть скорректированы соответственно для таких вещей, как стабильность и ясность. - Я слегка сократил сценарий, удалив раздел на лекарственном амлодипине, потому что я не хотел, чтобы демонстрация была слишком длинной.
- Для бесплатной учетной записи существует кредитный лимит, поэтому убедитесь, что вы используете их с умом для звука, который вы хотите генерировать.
- Загрузите и сохраните файл .mp3 (под названием «Synthesized_Audio.mp3») на локальной машине.
(4) D -ID - генерация фотореалистических аватаров (и аудио синхронизации)
- Наконец, пришло время разместить фармацевт и консультировать аудио вместе в фотореалистическое видео. Для этого мы можем использовать такие инструменты, как D-ID.
- Творческая технология ИИ от D-ID делает изображения лиц и превращает их в высококачественные, фотореалистические видео. При нажатии кнопки он может объединить изображения с аудио или текстом, чтобы дать им выражение и речь.
- Настраивать:
- Посетите веб-сайт D-ID и создайте бесплатную пробную учетную запись
- Выберите кнопку «Создать видео», чтобы начать создание нового видео
- Добавьте свое изображение фармацевта Midjourney в качестве изображения ведущего
- Загрузите наше сценарий CHATGPT в разделе «
Upload your own voice раздел справа». - Нажмите кнопку
Generate Video в правом верхнем углу и подождите, пока ваш шедевр будет готов к загрузке!
Зависимости
Этот проект требует следующих зависимостей:
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
Будущая работа
Мы планируем продолжать совершенствовать и улучшать этот проект, интегрируя более генеративные инструменты ИИ и расширив функциональность аватара новостей. Мы также приветствуем любой вклад или предложения от сообщества. Благодарности
Мы хотели бы поблагодарить разработчиков и исследователей в Midjourney, Openai, ElevenLabs и D-ID за их отличные генеративные инструменты искусственного интеллекта, что сделало возможным этот проект.
Лицензия
Этот проект лицензирован по лицензии MIT - для получения подробной информации см. Файл лицензии.