BlahSTダウンロードBlahSTソースコードのダウンロード

BlahST

AI ソースコード

Multilingual BlahST

ダウンロード

Blahst

BLAH S PEECH-TO- T EXTでは、キーボードショートカットとwhisper.cppを使用して、LinuxでのスピーチからのBLA（H）ST入力テキストを使用できます。マイクを起動し、オフラインで高品質の多言語認識を実行します。ローカルLLMSで拡張され、Linuxコンピューターと会話する強力なツールになります。

Blahstは、おそらくLinuxの最もリーンなWhisperベースのスピーチツーテキスト入力ツールであり、whisper.cppの上に座っています。

ローカルwhisper.cppを使用した高速転写、またはwhisper.cppサーバーにオーディオを送信して、さらに高速なネットワーク転写を送信します。
スピーチ入力言語を選択し、専用のwsimlスクリプトでコマンドラインから翻訳できる
whisper.cppをコンパイルする代わりに、ダウンロードしたポータブルWhisperfile実行可能ファイルを使用できます。ホットキーを設定するときは、コマンドラインフラグ '-w'を使用できます
新しい：llama.cppまたはllamafileを介したローカルLLMとの相互作用は、テキストの回答または翻訳を作成します。このアップグレードされた機能はWSIAIスクリプトにあり、WSIが行うすべてのことも行います。（TODO：AIアシスタント機能を説明する専用のドキュメントセクション）
実験：Blooperユーティリティにより、XdotoolまたはYdotoolを使用して、自動貼り付けループを備えた連続的な「ハンズフリー」音声入力または口述が可能になります。長く沈黙すると、スクリプトは終了し、ホットキーで再アクティブ化できます。
Hot、Experimental：AI Proofreaderを追加し、任意のウィンドウで選択した編集可能なテキストを修正（タイプミス、文法など）。選択したテキストでスピーチでトリガーされました：「コンピューター、校正...またはコンピューターは文法のようなものです。」。しばらくすると、選択したテキストをLLMに自動的に置き換える必要があります。

低リソース、最適化されたコマンドラインツールを使用して、音声テキスト入力は非常に速く発生します。いくつかのローカルLLM機能（AIアシスタント、翻訳者、スケジュラー、テスト段階のCLIガイド）を備えたデモビデオ（オーディオを解除してください）を次に示します。

blahst-ai-demo.mp4

上記のビデオでは、オーディオはスクリーンエンケストを描画するシステムから始まります（私のGNOME拡張機能「Voluble」はすべてのGNOMEデスクトップ通知を声をかけます）、その後、音声入力/認識の複数のターンが続きます。最後に実証されているのは、Blahst（whisper.cpp）によって転写されたテキストを使用し、LLMプロンプトにフォーマットして、中国の翻訳をテキストとして返すローカル多言語LLM（llama.cppまたはllamafile）に送信し、Neural ttsを使用して話すようにする「AI関数」の1つです。これをリーン実行可能ファイルを使用してコマンドラインから調整すると、システムが驚くほどきびきびとしています（ビデオから、PCが汗をかくことはほとんど壊れていないことがわかります - 温度は低いままです）。

Blooper-demo.mp4

上記のビデオ（Unmuteをお願いしてください）は、ユーザーがより長い一時停止で音声入力を終了するまで、WSIから変更してループで転写されるBlooperの使用を示しています（プリセットとして〜3Sec）。 Xdotool（またはWaylandユーザーのためのYdotool）を使用すると、テキストは、一時停止（またはHotkey Intruption）で自動的に貼り付けられます。上記のビデオでは、スピーチは合成音声で生成され、マイクによって収集されます。これにより、テキストを同時に編集できます（マルチタスカー、自宅でこれを試さないでください:)。最後に、トップバーのマイクアイコンが消えるはずで、プログラムの出口を示します。スクリーンキャストユーティリティにはアイコンにも主張があるため、ビデオでは発生しません。

操作の原則（最高のUIはまったくUIではありません。）

Blahstのアイデアは、モンゴルの襲撃に相当するUIフリーのソフトウェアになることです。 CPU/GPUアクションの短く強力なバーストであり、クリップボードと相対的なデスクトップの平和にテキストトレースのみがあり、完全になくなっています。ホットキーを使用して、マイクの録音を開始および停止し、録音されたスピーチをwhisper.cppに送信します。ほとんどのLinuxデスクトップ環境と分布で機能するはずの普遍的なアプローチ。

作業は、スクリプトの1つによって行われます。

一般的な音声入力のためのWSI 、
多言語ユーザー向けのWSIML 、
llama.cppまたはllamafileを使用して、ローカルの大手言語モデルとも話したいユーザー向けのWSIAI 。

音声認識は、whisper.cppによって実行されます。Whisper.cppは、Linuxシステムで事前に拡張するか、LANまたはLocalHostでサーバーインスタンスとして利用できる必要があります。 Alternativellyでは、実際にポータブル実行可能ファイルをダウンロードして使用することを選択できます（埋め込まれたWhisperモデルを使用）whisperfile、Llamafileリポジトリの一部です。

ホットキーで音声入力が開始されると、マイクのインジケータがトップバー（少なくともGNOMEで）に表示され、録音の期間中に表示されます（別のホットキーと断ち切ることができます）。上部バーからマイクアイコンの消失は完了を示し、転写されたテキストはクリップボードから貼り付けることができます。システムでは、マイクのアイコンが消え、テキストが転写時間が長くなるとクリップボードに到達する前に、わずかな遅延が発生する可能性があります。私のコンピューターでは、whisper.cppサーバーAPIを介して、話されたテキストの平均段落について、ローカルwhisper.cppで300ミリ秒）未満です。

たとえば、標準のCTRL+Vを使用したキーボードのみの操作の場合、標準のクリップボードはX11およびWayland（ wsiまたはwsiml ）で使用されますが、 wsi -p （またはwsiml -p ）は主要な売りを使用し、テキストはミドルマウスボタンで貼り付けられます）。左側のペーストの場合、音声録音は右手でトリガーされたホットキーに追いやることができます。 **たとえば、数値キーパッドに未使用の「+」（録音を開始する）と「録音を停止する）キーをセットアップしました。

データフロー図

WSIAIスクリプト（WサンプルLLMインタラクション）

WSIAIデータフロー

Blooper（ループでの音声入力）

Blooperデータフロー

システムのセットアップ

前提条件：

ZSHまたはBASHコマンドラインシェルインストール最新のデスクトップ環境を実行するLinuxシステムへのインストール。
Work whisper.cppのインストールまたはlan/localhostのリスニングwhisper.cppサーバー（ネットワーク転写セクションを参照）、またはオプションでダウンロードされたwhisperfile。
このリポジトリからのオーケストレーターツールWSI 、 WSIAI 、またはWSIMLは、$ home/.local/bin/folderまたは$ pathの他の場所に配置する必要があります（インストールスクリプトinstall-wsiこれらのほとんどを処理します）。
システムのリポジトリからの「SOX」、「XSEL」、「XSEL」（またはWaylandの「WL-Copy」）のコマンドラインツールの最近のバージョン。
作業マイク

免責事項：著者は、このドキュメントの内容とやり取りすることから生じる場合とそうでない場合がある結果に対してクレジットを取得せず、責任を負いません。提案されたアクションと自動化（インストール場所など）は単なる提案であり、著者の選択と意見に基づいています。味や特定の状況に合わない可能性があるため、必要に応じて調整してください。

インストール

選択したフォルダーで、Blahstリポジトリをクローンしてから、以下からインストールメソッドを選択します。

 git clone https://github.com/QuantiusBenignus/BlahST.git
cd ./BlahST

インストールスクリプトを使用します

クローン化されたリポジトリのフォルダーからスクリプト `install-wsi`を実行し、プロンプトに従います。スクリプトを移動して実行可能にし、whisper.cpp `main`実行可能ファイルへのリンクを作成し、環境を設定し、デフォルトのwhisper.cppモデルを設定し、依存関係を確認し、欠落している場合はインストールを要求します。インストールスクリプトは、ネットワーク転写のセットアップも処理しますが、whisper.cppサーバーのIPとポートは「WSI」および/または `wsiai`で手動で設定する必要があります。その後、スピードと利便性のために[https://github.com/quantiusbenignus/blahst/#gui-setup-of-hotkeys）でのみ呼び出されます。

手動インストール

（whisper.cppがインストールされ、クローンされたwhisper.cppリポジトリで「make」でコンパイルされた「メイン」実行可能ファイルがインストールされていると仮定します。前提条件セクションを参照）

スクリプトWSIおよび/またはWSIAI 、 WSIML 、$ HOME/.local/bin/

実行可能にします

 cd $HOME/.local/bin; chmod +x wsi wsiAI wsiml

コマンドラインから一度実行して、スクリプトに必要な依存関係をチェックさせます
ローカルwhisper.cppを使用する場合、whisper.cppディレクトリにコンパイルされた「メイン」実行可能ファイルにシンボリックリンク（コードが$パスで「転写」を期待する）を作成します。たとえば、 $HOME/.local/bin/ （$ pathの一部）で作成します

 ln -s /full/path/to/whisper.cpp/main $HOME/.local/bin/transcribe

転写が$パスにない場合は、 WSIの呼び出しを編集して絶対パスを含めるか、その場所を$ PATH変数に追加します。それ以外の場合は、スクリプトが失敗します。 whisper.cppをコンパイルしたくない場合、またはそれに加えて、適切なwhisperfileの実行可能フラグをダウンロードして設定します。

 cd $HOME/.local/bin
wget https://huggingface.co/Mozilla/whisperfile/resolve/main/whisper-tiny.en.llamafile
chmod +x whisper-tiny.en.llamafile

構成

wsi 、 wsiAI 、 wsiml 、またはblooperスクリプト内には、最初の近くに、すべてのユーザーが構成可能な変数が収集されている「ユーザー構成ブロック」という名前の明確なマークのセクションがあります。ほとんどはそのまま残ることができますが、重要なものは、転写中に使用したい（Whisper、LLM、TTS）モデルファイルの場所（またはwhisper.cppサーバーのIPおよびポート番号）の場所です。 whisperfileを使用している場合は、以前にダウンロードした実行可能ファイルWHISPERFILE=whisper-tiny.en.llamafileのファイル名にwhisperfile変数を設定してください。

ホットキーのGUIセットアップ

手動と自動インストールの両方で、音声入力を開始および停止するには

ケース1：gnome

スピーチの録音を開始するホットキー

GNOMEシステム設定を開き、「キーボード」を見つけます。
「キーボードショートカット」の下で、「ショートカットの表示とカスタマイズ」
新しいウィンドウで、下に「カスタムショートカット」までスクロールして押します。
「+」を押して新しいショートカットを追加し、名前を付けます：「録音を開始する」
「コマンド」フィールドタイプ/home/yourusername/.local/bin/wsi -pで、ミドルマウスボタンを使用するか、クリップボードを使用するために.../wsiに変更します。
（多言語モデルのユーザーについては、上記のwsiをwsimlに置き換え、Whisperfileを使用する場合は、 -wフラグ、つまり/home/yourusername/.local/bin/wsi -wを追加します）。最後に、LLM関数をサンプリングするには、 wsiをwsiAIに置き換えます。
次に、「ショートカットの設定」を押し、（未使用の）キーの組み合わせを選択します。たとえば、Ctrl+Alt+AのようなキーコンボまたはKP+ （キーパッド+）のような単一の未使用キー。
[追加]をクリックすると、完了です。

オーケストレータースクリプトには、Sox（Rec）への呼び出しに沈黙検出フィルターがあり、2秒の沈黙で（最良の場合）の記録を停止します。さらに、待機したくない場合、または沈黙の検出しきい値に問題がある場合：

手動音声録音介入（強くお勧め）

偉大なハッキングの精神で、重要な組み合わせで手動でレコーディングを中断できるようにしたい人のために、システム内蔵機能を使用します。

GNOMEシステム設定を開き、再び「キーボード」を見つけます。
「キーボードショートカット」の下で、「ショートカットの表示とカスタマイズ」
新しいウィンドウで、下に「カスタムショートカット」までスクロールして押します。
「+」を押して、新しいショートカットを追加し、名前を付けます：「Intrupt Speech Input！」
「コマンド」フィールドタイプpkill --signal 2 rec
次に、「ショートカットの設定」を押し、（未使用の）キーの組み合わせを選択します。たとえば、Ctrl+Alt+XのようなキーコンボまたはKP- （キーパッド - ）のような単一の未使用キー。
[追加]をクリックすると、完了です。

それは単純です。新しいキーバインディングが他の何かのためにすでにセットアップされていないことを確認してください。スクリプトがスピーチを録音しているとき、新しいキーコンボで停止することができ、転写はすぐに開始されます。

ケース2：XFCE4

これは、上記のGNOMEセットアップのSimalrです（参考までに、その詳細な指示を参照）

XFCE4設定マネージャーを開きます。
キーボード→アプリケーションショートカットに移動します。
[追加]ボタンをクリックして、新しいショートカットを作成します。
ショートカットの名前とコマンドを入力します。たとえば、 /home/yourusername/.local/bin/wsi -pまたは.../wsiクリップボードを使用します。
（多言語モデルのユーザーについては、上記のwsiをwsimlに置き換え、Whisperfileを使用する場合は、 -wフラグ、つまり/home/yourusername/.local/bin/wsi -wを追加します）。最後に、LLM関数をサンプリングするには、 wsiをwsiAIに置き換えます。
ショートカットに割り当てたいキーを押します。
[OK]をクリックしてショートカットを保存します。ストップスピーチの録音を停止するホットキーは、別のキーコンボとコマンドpkill --signal 2 recで同様に行う必要があります。

ケース3：KDE（プラズマ）

これは、上記のGNOMEセットアップに似ています（参考までに、その詳細な指示を参照）

システム設定アプリケーションを開きます。
ショートカットとカスタムショートカットに移動します。
[編集]をクリックしてから、必要に応じてショートカット用の新しいグループを作成します。
新しく作成されたグループの下で、もう一度[新規]をクリックして、グローバルショートカット - >コマンド/URLを選択します。
新しいショートカットに名前を付けてください。
「なし」の横にあるボタンをクリックし、ショートカットに割り当てるキーを押すことにより、目的のショートカットキーの組み合わせを選択します。
[トリガー]タブで、ショートカットがトリガーされたときに実行するコマンドを指定します。 Eg /home/yourusername/.local/bin/wsiまたは.../wsi -p
（多言語モデルのユーザーについては、上記のwsiをwsimlに置き換え、Whisperfileを使用する場合は、 -wフラグ、つまり/home/yourusername/.local/bin/wsi -wを追加します）。最後に、LLM関数をサンプリングするには、 wsiをwsiAIに置き換えます。
有効なチェックボックスがチェックされていることを確認して、ショートカットをアクティブにします。
[適用]またはOKをクリックして変更を適用します。ストップスピーチの録音を停止するホットキーは、別のキーコンボとコマンドpkill --signal 2 recで同様に行う必要があります。

システムにインストールされているバージョンに応じて、上記の手順にわずかなバリエーションがある場合があることに注意してください。 Mate、Cinnamon、LXQT、Deepinなどの他の多くの環境については、上記の例と少し似ている必要があります。システムデスクトップ環境のドキュメントを参照してください。

やる

POSIX準拠のインストールスクリプト
POSIX準拠のオーケストレーションスクリプト

まとめ

ホットキーのコンボのプレスでは、 wsi -pスクリプトはスピーチを記録し（ホットキーまたはサイレンス検出で停止します）、whisper.cppのローカルコピーを使用し、X11またはウェイランドの下のプライマリセレクションに転写されたテキストを送信します。その後、必要なのは、どこでもミドルマウスボタンで貼り付けます。（マウスを右手で持っている人のために、左手のホットキーを録音する音声は理にかなっています。）
フラグなしでwsiを使用している場合（アプローチは共存でき、異なるホットキーのセットを設定するだけです）、転写されたテキストがX11またはWaylandのいずれかの下のクリップボード（プライマリ選択ではなく）に送信されます。次に、 CTRL+V （GNOME端子のCTRL+SHIFT+V ）またはSHIFT+INSertキーで通常どおりにキーを使用して貼り付けが行われます。（ほとんどの人にとって、右側のホットキーはうまく機能するでしょう。）
wsi -n （独自のホットキーで選択された）でネットワークを介して転写される場合、スクリプトは録音されたオーディオを実行中のwhisper.cppサーバー（lanまたはlocalhost ）に送信しようとします。次に、テキスト応答を収集し、 CTRL+V （GNOME端子のCTRL+SHIFT+V ）またはSHIFT+INSertキー（ミドルマウスボタンで貼り付けてwsi -n -pを使用して貼り付けます）で貼り付けてフォーマットします。
コンパイルされたwhisper.cppの代わりに、またはコンパイルされたwhisper.cppの代わりにwhisperfileを使用する場合、 wsi -w ...で呼び出します。
多言語ユーザーの場合、WSIの機能に加えて、 wsiml言語を指定する機能、EG -l frと-tで英語に変換するオプションを提供します。ユーザーは、原則として、複数のホットキーを転写または翻訳するさまざまな言語に割り当てることができます。たとえば、2つの追加のホットキーを設定できます。1つは転写用、もう1つはコマンドwsiml -l frとwsiml -l fr -tを割り当てることにより、フランス語から翻訳することができます。
実験：ユーザーは、継続的な自動音声からテキストへの入力に付属のスクリプトブルーパーを使用できます（Ctrl+Vを押すか、マウス中央のマウスをクリックする必要はありません）。これは、上記の2番目のビデオで示されています。クリップボードはデフォルトで使用され、テキストはキーボードCarretの下で自動貼られますが、原則として主要な選択をセットアップすることができます。中央のマウスボタンクリックをシミュレートし、テキストを（やや任意の）時間のマウスポインターの現在の位置に貼り付けます。これは、物理的な環境に依存する沈黙の検出に依存していることに注意してください。騒々しい環境では、ホットキーを使用して録音を停止します。

ヒントとコツ

Soxは16KレートでWAV形式で録音しています。これは、Whisper.cppによって現在受け入れられています。これは、このコマンドを使用して** wsi **で行われます： `rec -t wav $ ramf rate 16k Silence 1 0.1 3％1 2.0 6％`信号レベルのしきい値が6％で2秒のサイレンスで停止しようとします。非常に騒々しい環境は沈黙の検出を妨げ、（騒音の）記録が続きます。これは問題であり、すべての場合に機能しない可能性のある治療法は、「WSI」スクリプトのSOXフィルターの期間と沈黙のしきい値を調整することです。もちろん、優先される場合は、手動遮断法を使用できます。

スピーチの終わりに一貫して声（フェードアウト）を下げた場合、しきい値が高い場合に遮断される可能性があるため、しきい値を任意に上げることはできません。その場合、それを数％に下げます。
音声を振幅でノイズと区別できるようにすることをお勧めします（マイクの近くではっきりと話します）。一方、外部ノイズ（マイクの保護された位置、ノイズキャンセルハードウェアなど）は、SNR（音声とノイズの比率:-)であるため、優れた音声信号レベルでより効果的になります。

スピーチがキャプチャされた後、音声認識のためにtranscribe （whisper.cpp）に渡されます。これは、リアルタイムよりも速く発生します（特に高速CPUの場合、またはwhisper.cppのインストールがCUDAを使用する場合）。転写のコマンドラインパラメーターに-tnを追加することで使用する処理スレッドの数を調整できます（whisper.cppドキュメントを参照してください）。次に、スクリプトはテキストを解析して、非スピーチアーティファクトを削除し、フォーマットし、X11またはWaylandツールのいずれかを使用してプライマリセレクション（クリップボード）に送信します。

原則として、whisper（whisper.cpp）は多言語であり、正しいモデルファイルを使用して、このアプリケーションは正しい言語で転写されるUTF-8テキストを出力します。 wsimlスクリプトはマルチリングの使用専用であり、それとともにユーザーは音声入力の言語を選択することができます（LCはLCが言語コードである-l LCフラグを使用-t 。ユーザーは、複数のホットキーを転写または翻訳したいさまざまな言語に割り当てることができます。たとえば、2つの追加のホットキーを設定できます。1つは転写用、もう1つはコマンドwsiml -l frとwsiml -l fr -tを割り当てることにより、フランス語から翻訳することができます。

サーバーモードを使用する場合、2つの選択肢があることに注意してください。 Precompiled Whisper.cpp ServerまたはダウンロードされたWhisperfile（サーバーモード）を使用すると、事前に設定されたホストとポート番号で聞くことができます。オーケストレータースクリプトは同じようにそれらに近づきます。

一時的なディレクトリとファイル

音声からテキストへの転写は、メモリおよびCPU集約型タスクであり、読み取りおよび書き込みアクセスのための高速ストレージは役立ちます。そのため、 WSIはSSD/HDDの「粉砕」： TEMPD='/dev/shm'速度と削減するために、メモリに一時的なファイルとリソースファイルをメモリに保存します。このタイプ「TMPFS」のマウントポイントは、RAMで作成され（たとえば少なくとも8GBがあると仮定しています）、ユーザースペースアプリケーションのためにカーネルで利用可能になります。コンピューターがシャットダウンされると、自動的に拭き取られます。これは、中間ファイルが必要ないため問題ありません。実際、一部のタイプのアプリケーション（電子を見る）では、Systemwide /TMPマウントポイントをRAMに保持することは有益です（IMHO）。 /TMPをRAMに移動すると、アプリケーションの起動を少しスピードアップできます。あらゆる電子アプリの歓迎スピードアップ。最も単純な形式では、この移行は簡単です。実行するだけです。

echo "tmpfs /tmp tmpfs rw,nosuid,nodev" | sudo tee -a /etc/fstabを再起動し、Linuxコンピューターを再起動します。特にHDDがメインストレージメディアである場合、前述の理由で、同じ場所（/dev/shm）でwhisper.cppが必要とするASRモデルファイルを移動することもできます。これらは大きなファイルであり、ターミナルセッションの開始時（またはシステムの起動時）にこの場所に転送できます。これは、このようなものをその中に配置することで、 .profileファイルを使用して実行できます。

 ([ -f /dev/shm/ggml-base.en.bin ] || cp /path/to/your/local/whisper.cpp/models/ggml* /dev/shm/)

cliblurt.mp4

クレジット

AIを開く（ささやき用）
Georgi Gerganov and Community（WhisperのC/C ++ポートWhisper.cpp用）
Justine Tunney、CJ Pais、Llamafileコミュニティ（LlamafileとWhisperfile用）
ソックスの開発者（由緒ある「音響処理ツールのスイスアーミーナイフ」のため）
XSEL、WL-COPY、CURL、JQ、XDOTOOLなどのCLIユーティリティの作成者とメンテナーは、Linux環境（CLIおよびGUI）をこのような強力なパラダイムにしています。

拡大する

追加情報

バージョン Multilingual BlahST
タイプ AI ソースコード
更新時間 2025-08-21
サイズ 36.82KB
から Github

BlahST

Blahst

操作の原則（最高のUIはまったくUIではありません。）

WSIAIスクリプト（WサンプルLLMインタラクション）

Blooper（ループでの音声入力）

システムのセットアップ

前提条件：

インストール

構成

ホットキーのGUIセットアップ

スピーチの録音を開始するホットキー

手動音声録音介入（強くお勧め）

やる

まとめ

一時的なディレクトリとファイル

クレジット

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express

BlahST

Blahst

操作の原則（最高のUIはまったくUIではありません。 ）

WSIAIスクリプト（WサンプルLLMインタラクション）

Blooper（ループでの音声入力）

システムのセットアップ

前提条件：

インストール

構成

ホットキーのGUIセットアップ

スピーチの録音を開始するホットキー

手動音声録音介入（強くお勧め）

やる

まとめ

一時的なディレクトリとファイル

クレジット

操作の原則（最高のUIはまったくUIではありません。）