Notebooklmのポッドキャスト機能に代わるオープンソースAPI機能:マルチモーダルコンテンツをGenaiとの魅惑的な多言語オーディオ会話に変換する
論文| Pythonパッケージ| cli | REST API | Webアプリ|フィードバック
PodcastFyは、Genaiを使用したマルチモーダルコンテンツ(テキスト、画像)を魅力的な多言語の会話に変換するオープンソースPythonパッケージです。入力コンテンツには、Webサイト、PDF、画像、YouTubeビデオ、およびユーザーが提供するトピックが含まれます。
主に研究統合に焦点を当てたクローズドソースUIベースのツール(Notebooklm❤️)とは異なり、Podcastfyは、多数のマルチモーダルソースからのオープンソース、プログラム、および魅力的な会話コンテンツ、カスタマイズとスケールの有効化に焦点を当てています。
このサンプルコレクションは、このPythonノートブックを使用して生成されました。
サンプル1:セネシオ、1922年(ポールクリー)と文明のつながり(2017)by Gheorghe Virtosu


サンプル2:カナガワ沖の大波、1831年(北野)と魔女の高山魔法とスケルトンスペクター、c。 1844年(クニヨシ)


サンプル3:ポップカルチャーのアイコンTaylor Swift and Mona Lisa、1503(Leonardo da Vinci)


| オーディオ | 説明 | ソース |
|---|---|---|
souza.mp4 | 個人的なウェブサイト | Webサイト |
オーディオ( longform=True ) | Lex Fridmanポッドキャスト:5H Dario Amodei AnthropicのCEOとのインタビュー | YouTube |
オーディオ( longform=True ) | ベンジャミン・フランクリンの自伝 | 本 |
| 言語 | コンテンツタイプ | 説明 | オーディオ | ソース |
|---|---|---|---|---|
| フランス語 | Webサイト | 農業研究情報 | オーディオ | Webサイト |
| ポルトガル語-Br | ニュース記事 | サンパウロでの選挙調査 | オーディオ | Webサイト |
$ pip install ffmpeg (オーディオ処理用)pypi $ pip install podcastfy
APIキーをセットアップします
from podcastfy . client import generate_podcast
audio_file = generate_podcast ( urls = [ "<url1>" , "<url2>" ]) python -m podcastfy.client --url <url1> --url <url2>
Pythonパッケージクイックスタート
方法
Pythonパッケージリファレンスマニュアル
REST APIリファレンスマニュアル
cli
PodcastFyは、AIに生成されたポッドキャストを調整するためのさまざまなカスタマイズオプションを提供しています。
「このイニシアチブと、これまでのところ、特に「非3番」のユーザーにとっては最高のものを愛しています。」
「過去10年間にGoogleが構築した最も人気のある製品のオープンソースバージョンを何気なく構築したのが大好きです」
「あなたの図書館は一緒に仕事をするのに非常に簡単でした。あなたは素晴らしい仕事の兄弟をしました」
「ノートブックルムの品質を打ち負かすのがどれほど難しいかを霊感を受けたり認識したりするのは素晴らしいことだと思いますが、あなたはこれで信じられないほどの仕事をしました!それは信じられないほど聞こえます、そしてそれはオープンソースです!素晴らしいことをありがとう!」
詳細については、changelogを参照してください。
このソフトウェアは、Apache 2.0でライセンスされています。ソフトウェアでpodcastfyを使用する場合は、指示を参照してください。
貢献を歓迎します!詳細については、ガイドラインを参照してください。
コンテンツクリエーターは、 Podcastfyを使用してブログ投稿、記事、またはマルチメディアコンテンツをポッドキャストスタイルのオーディオに変換し、より幅広い視聴者にリーチできるようにすることができます。コンテンツをオーディオ形式に変換することにより、クリエイターは読書を聞くことを好むユーザーに応えることができます。
教育者は、講義ノート、プレゼンテーション、視覚資料をオーディオ会話に変換し、学習の好みを持つ学生が教育コンテンツをよりアクセスしやすくすることができます。これは、視覚障害のある学生や書面による情報の処理が困難な学生にとって特に有益です。
研究者は、研究論文、視覚データ、技術コンテンツを会話の音声に変換できます。これにより、障害のある人を含むより多くの聴衆が複雑な科学情報を消費して理解しやすくなります。研究者は、アクセシビリティを強化するために、作業の音声概要を作成することもできます。
アクセシビリティの支持者は、マルチモーダルコンテンツを聴覚形式に変換するツールを提供することにより、 Podcastfy使用してデジタルアクセシビリティを促進できます。これは、視覚障害、ディスレクシア、または書面または視覚的な内容を消費するのが難しい他の障害を持つ個人に役立ちます。
↑上部に戻ります↑