ポドファイ
このアプリにより、ユーザーは提供されたファイルに基づいてポッドキャストのスタイルでコンテンツを作成できます。いくつかの例は、論文、講義、プロジェクトの説明、個人履歴書、または他の多くを提供することです。
また、このプロジェクトについて話すためにブログ投稿を書きました。「生成AIを使用して、任意の入力からポッドキャストスタイルのコンテンツを作成する方法」を確認してください。
それがどのように機能するか

使い方
- 1つ以上のファイルを提供します。
- オプションで、ゲストとホストの声をカスタマイズすると、こちらの音声サンプルを確認できます。
- 「ポッドキャストの生成」をクリックして、少し待ちます。
- オーディオを再生し、テキストのトランスクリプトに沿って自由にフォローしてください。
例

私の他のプロジェクト「AI Beats」から生成されるポッドキャスト
podcast-ai_beast.mp4
ポッドキャストは私の他のプロジェクト「AI Trailer」から生成します
podcast-ai_trailer.mp4
Andrew Hubermanの「最適な朝のルーチン」の説明から生成されます
Podcast Andrew_hubermans.mp4
ポッドキャストは個人的な履歴書によって生成されます
Podcast-Resume.mp4
ローカルの使用
設定
- GitHubリポジトリをクローンします
https://github.com/dimitreOliveira/PodfAI.git
cd PodfAI
- 新しいvenvを作成します
python -m venv .venvs/podfai
- venvをアクティブにします
source .venvs/podfai/bin/activate
- 要件をインストールします
または、 pipを使用して実行することもできます
pip install -r requirements
- Google API依存関係を設定します
アプリを実行します
アプリを開始するには、以下のMakeコマンドを実行します
または、Plain Pythonを使用して実行することもできます
streamlit run src / app . py
構成
デフォルトの構成を自由に変更して、アプリの動作を変更するか、ニーズに合わせて調整してください。
vertex:
project: {VERTEX_AI_PROJECT}
location: {VERTEX_AI_LOCATION}
transcript:
model_id: gemini-1.5-pro-002
transcript_len: 5000
max_output_tokens: 8192
temperature: 1
top_p: 0.95
top_k: 32
- 頂点
- プロジェクト:頂点AIが使用するプロジェクト名。
- 場所:頂点AIが使用するプロジェクトの場所。
- 転写産物
- Model_id:ポッドキャストトランスクリプトの作成に使用されるモデル。
- transcript_len:推奨される転写産物の長さ。
- max_output_tokens:モデルによって生成されたトークンの最大数。
- 温度:温度は、トークン選択のランダム性の程度を制御します。より低い温度は、真の応答または正しい応答を期待するプロンプトに適していますが、より高い温度はより多様または予期しない結果につながる可能性があります。温度0で最も高い確率トークンは常に選択されます
- TOP_P: TOP-Pは、モデルが出力のトークンを選択する方法を変更します。トークンは、確率の合計が最高値に等しくなるまで、最も可能性の高いものから最小まで選択されます。たとえば、トークンA、B、およびCの確率が.3、.2、および.1の場合、PORT-P値が.5の場合、モデルは次のトークン(温度を使用)としてAまたはBのいずれかを選択します。
- TOP_K: TOP-Kは、モデルが出力のトークンを選択する方法を変更します。 1のトップkは、選択されたトークンがモデルの語彙のすべてのトークンの中で最も可能性が高いことを意味します(貪欲なデコードとも呼ばれます)。
トト
- 音声クローニングをサポートします
- 他の言語をサポートします
- 他の入力タイプ(画像、ビデオ、YouTube URLS)をサポートする
- コラブで実行するためにノートブックのサンプルを追加します
- オープンソースモデルでワークフローを再現します
- エージェントワークフローを実験して、ポッドキャストトランスクリプトを改善します
参照
- Google Cloud-テキストからスピーチクライアントライブラリ
- GoogleクラウドTTSをローカルにセットアップします
- Google Cloud TTS音声リスト
貢献
このプロジェクトに貢献することに興味があるなら、どうもありがとう! PRを作成する前に、必ずコードを並べて、以下のコマンドを実行してください。
謝辞
- このプロジェクトには、Googleクラウドクレジットが提供されています。このプロジェクトは、GoogleのML開発者プログラムチームのサポートのおかげで可能でした。
- このプロジェクトは、GoogleのNoteBookLMに基づいており、ポッドキャストスタイルのコンテンツとは別に、他の多くの機能を備えているので、必ずチェックしてください。