GTTS
v0.0.8
書面によるコンテンツを、テキスト生成およびインターネットベースの情報検索のためにGoogle AI(Gemini)を使用してスピーチに変換します。
このプロジェクトは、test/app.tsの例に基づいています。次の手順を実行します。
このプロジェクトは、Linux(Ubuntu 24.04 LTS X86_64)でテストされています。 Windowsユーザーは、SourceForgeを介してSOXをインストールできます。 MacOS固有の情報は現在利用できません。
| タスク | 優先度 | 状態 |
|---|---|---|
| Geminiチャットを実装します | 高い | ✅完了しました |
| 音声認識を開発します | 高い | ✅完了しました |
| オーディオ言語検出を実装します | 高い | ✅完了しました |
| テキスト言語の検出を実装します | 中くらい | ✅完了しました |
| オーディオプレーヤーを実装します | 低い | ✅完了しました |
| 酵素を定義します | 低い | ✅完了しました |
| デバッグを統合します | 低い | ✅完了しました |
このリポジトリを使用する前に、システムに次の依存関係がインストールされていることを確認してください。
sudo apt-get install soxsudo apt-get install libsox-fmt-allsudo apt install ffmpeg choco install ffmpeg (チョコレートを使用)または公式ウェブサイトからダウンロード現時点では、MacOS固有のインストール手順は利用できません。
パッケージをインストールするには、希望するパッケージマネージャーに基づいて、次のコマンドのいずれかを使用します。
# npm
$ npm install git+https://github.com/Stawa/GTTS.git --legacy-peer-deps
# Bun
$ bun install git+https://github.com/Stawa/GTTS.git --trust例に飛び込む前に、次のAPIキーと資格情報があることを確認してください。
lib.GoogleGemini )lib.TextToSpeech )lib.VoiceRecognition.fetchTranscriptGoogle )lib.VoiceRecognition.fetchTranscriptDeepgram )lib.SummarizeText )これらのAPIキーを安全に保存し、バージョン制御にコミットしないようにしてください。環境変数または安全なキー管理システムの使用を検討してください。
Google Gemini APIを使用して応答を生成する方法を示す簡潔な例を次に示します。
import { GoogleGemini } from "@stawa/gtts" ;
import dotenv from "dotenv" ;
dotenv . config ( ) ;
const gemini = new GoogleGemini ( {
apiKey : process . env . GEMINI_API_KEY ,
model : "gemini-1.5-flash" ,
enableLogging : true ,
} ) ;
async function main ( ) {
try {
const question = "When was Facebook launched?" ;
console . log ( `Question: ${ question } ` ) ;
const response = await gemini . chat ( question ) ;
console . log ( `Gemini's response: ${ response } ` ) ;
} catch ( error ) {
console . error ( "An error occurred:" , error ) ;
}
}
main ( ) ;すべての協力者の貢献に感謝します。各人の努力は、このプロジェクトを改善するのに役立ちます。このプロジェクトの形成を手伝ってくれたすべての貢献者に感謝します!