Generative-AIニュースリーダー
Keezum AI NewsReaderを紹介してください!
AI NewsReaderリポジトリへようこそ!このプロジェクトは、生成的なAIツールを一緒に使用して、洗練されたダイナミックなニュースリーダーAvatarを作成する方法を示すものです。
ショ和免責事項:冗談を言って、あなたの快適さに従って自由に使用してください。
このリンクにアクセスして、デモビデオをご覧になってメイシーがアクションを開催しているのを見てください。彼女は2つの一般的に処方された薬について簡単に話します。
結果は非常に印象的であり、生成AIが改善している速度を考えると、時間とともにより良くなります。このデモを作成するには、0ドル、わずか25分かかりました。
これが私が使用したツールです:
- 女性の薬剤師のイメージを生成するためのミッドジャーニー
- newsheadlinesのスクリプトを生成するOpenaiのChatGpt
- chatgptスクリプトからオーディオを生成するためのelevenlabsのプライムビデオAI
- D-IDのクリエイティブリアリティスタジオは、オーディオと同期されたリアルなアニメーションアバタービデオを生成します(無料トライアル)
ステップバイステップガイド
(1)Midjourney-画像生成
- 私たちはアバターを表すために顔が必要であり、Midjourneyのような画像生成ツールを使用してそれを行うことができます
- Midjourneyは、テキストの説明から画像を作成するOpenaiによる無料のAIサービスです
- 設定:
- Midjourneyは完全に不和で動作しますので、必ず不一致アカウント(無料です)にサインアップしてください。
- このMidjourneyサイトリンクにアクセスしてください。これにより、自動的に不一致の招待状に移動します。
- ミッドジャーニーへの不一致の招待状を受け入れてください。不和を続けることを選択します。
- Midjourneyボタン(船のアイコン付き)をクリックして、
newbies-24などの新人の部屋のいずれかを選択します - チャットラインでは、タイプ
/imagineに続いて説明プロンプトが続きます。たとえば、私が使用したプロンプトは、「ニュースルームの背景を持つ赤いコートの女性メディアニュースレポーターの高品質の上半身のプロの写真」でした。入力後にEnterを押し、Midjourneyに時間をかけて画像を生成します。 - 完了すると、4つの画像の出力が表示されます。画像セットの下には、ボタンU1-U4のセットとV1-V4が表示されます。
- 4つの画像には、左上から時計回りに番号が付けられています。好きなものに新しいバリエーションを取得するには、「V1」(またはV2、V3、またはV4)を選択し、高解像度のコピーを取得するには、「U1」(またはU2、U3、またはU4)を選択します。
- Uボタンの1つを選択して選択した高解像度バリアントを取得したら、画像をクリックして[ブラウザで開く]を選択します。その後、ローカルマシンに高解像度画像を保存できます
(2)Playground ChatGpt-テキスト生成
- 誰もがChatGptを使用しているので、最近は少し遅くなり、お金を払うことに興味があるわけではないので、ChatGptPlaygroundを使用してタスクを非常に迅速に実行できます。ニュースを提供できるニュースヘッドラインスクリプトが必要です。そのためには、ChatGptPlaygroundを使用できます。
- ChatGptは、Openaiが開発し、2022年11月に発売されたチャットボットです。Openaiの大規模な言語モデルのGPT-3ファミリーの上に構築されています。
- 設定:
- このリンクにアクセスしてChatGPTにアクセスします(それに応じてログインする必要があります)
- プロンプトセクションで、カウンセリングスクリプトの関連説明を入力します。たとえば、私が使用したプロンプトは次のとおりです。「最初にKeezumというニュースリーダーとして自分自身を紹介するスクリプトを作成し、次にスタートのポイントでニュースの見出しについて話し、2〜3行の最大の限界でニュース情報を提供します」。
- ChatGPT画面の出力から、ローカルマシンのテキストファイルに生成されたテキストをコピーして保存します。
(3)ElevenLabs-Text-to-Speech生成
- 次に、ChatGPTスクリプトテキストを自然なサウンドオーディオクリップに変換します。 Prime Voice AI(ElevenLabs)などの無料ツールでこれを行うことができます
- Prime Voice AIは、ストーリーテリングの究極のツールを求めているクリエイターや出版社に最も説得力があり、リッチでリアルな声をもたらす現実的で汎用性の高いAIスピーチソフトウェアです。
- 設定:
- ElevenLabsページにアクセスして、無料でアカウントを作成してください。
- Speech Synthesisページで、設定の特定の音声を選択し、テキストスクリプトをテキストセクションに貼り付け、[生成]をクリックします。私が選んだ声は、それが最も活気があり自然であることがわかったので
premade/Domiでした。安定性や明確さなど、設定をそれに応じて調整することもできます。 - デモが長すぎたくないので、薬物アムロジピンのセクションを削除することにより、スクリプトをわずかに短縮しました。
- 無料アカウントにはクレジット制限がありますので、生成したいオーディオに賢明に使用してください。
- ローカルマシンにファイルをダウンロードして保存します。
(4)D -ID-フォトリアリスティックトーキングアバター(およびオーディオ同期)生成
- 最後に、薬剤師の画像とカウンセリングオーディオを一緒にフォトリアリスティックなビデオに載せます。そのためには、D-IDなどのツールを使用できます。
- D-IDのクリエイティブなAIテクノロジーは、顔の画像を撮影し、それらを高品質の光リアリスティックなビデオに変えます。ボタンをクリックすると、画像とオーディオまたはテキストを組み合わせて表現と音声を与えることができます。
- 設定:
- D-IDウェブサイトにアクセスして、無料のトライアルアカウントを作成します
- ビデオの作成ボタンを選択して、新しいビデオの作成を開始します
- Midjourneyの薬剤師の画像をプレゼンター画像として追加します
- 右側に
Upload your own voiceて、ChatGPTスクリプトオーディオをアップロードします。 - 右上の
Generate Videoボタンをクリックして、傑作がダウンロードの準備が整うのを待ちます!
依存関係
このプロジェクトには、次の依存関係が必要です。
Python 3.6 or higher
Midjourney
OpenAI's GPT-3 API
ElevenLabs' Prime Video AI
D-ID's Creative Reality Studio
将来の仕事
より生成的なAIツールを統合し、NewsReader Avatarの機能を拡大することにより、このプロジェクトを改善および改善し続ける予定です。また、コミュニティからの貢献や提案を歓迎します。謝辞
このプロジェクトを可能にした優れた生成AIツールについて、Midjourney、Openai、ElevenLabs、D-IDの開発者と研究者に感謝します。
ライセンス
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。