LLM Minutes of MeetingダウンロードLLM Minutes of Meetingソースコードのダウンロード

LLM Minutes of Meeting

ウェブサイトデータ

1.0.0

ダウンロード

LLM-Minutes-of-Meeting

シニアいいえ	トピック	リンク
0。	プロジェクトの紹介と「なぜ」	リンクはここに来ます
1。	セットアップとインストール	リンクはここに来ます
2。	特徴	別のリンク
3。	デモとアプリケーションのスクリーンショット	別のリンク
4。	アプローチと実装*	別のリンク
5。	最近の更新と将来の方向	別のリンク
6。	貢献	別のリンク
7。	問題/トラブルシューティング	別のリンク

0.プロジェクトの紹介と「なぜ」

会議議事録AI画像

このプロジェクトの主な目的は、NLP＆LLMの能力を紹介し、長い会議を迅速に要約し、あなたとあなたの組織が会議の議事録（MOM）メールを委任するタスクを自動化するのを支援することです。ステップ1がオーディオ/ビデオファイルのテキスト会話への変換に対応するハイレベル2ステップアプローチを使用します。ステップ2ステップ1で作成されたテキストを使用し、会議の議事録と詳細な要約ノートを生成します。これらの会議の議事録は、編集可能なテキストになります。お母さんを完成させたら、要件に従ってさらに使用できます。

このリポジトリの長期的な目的は、リアルタイムのPython Webアプリケーションを開発し、会議に出席し、会議の最後にお母さんを提供できることです。赤ちゃんの一歩を踏み出し、短期的な目標を開始することで長期的に到達しようとします。

あなたの情報については、私は微調整カスタムLLMと開発に取り組んでいます。プロジェクト全体が完全に安定している間、我慢してください。完了したら、トレーニングと推論コードを追加します。最新の更新を知る必要がある場合は、このリポジトリを実行してください。？あなたの時間に感謝します。

1。セットアップとインストール

先に進む前に、次のインストールを確認してください。

Ubuntu 22.04または最新。
Python（v3.10以降）
virtualenvやvenvなどの仮想環境ツール。

今すぐインストール手順を始めましょう。

GitHubリポジトリをクローンします
ターミナルまたはコマンドプロンプトを開き、リポジトリをクローンするディレクトリに移動します。その後、実行：
```
git clone https://github.com/inboxpraveen/LLM-Minutes-of-Meeting
cd LLM-Minutes-of-Meeting
```

要件をインストールします

他のPythonプロジェクトとの潜在的な競合を回避するために、依存関係をインストールする前に仮想環境を作成することをお勧めします。 virtualenvを使用している場合は、次のように新しい環境を設定できます。

 # # Create a python virtual environment and activate it.
# Install the required packages after activating:
pip install -r requirements.txt

# # After this, let's install Llama-Cpp-Python binding which will be used to interact with LLMs. 

# # Run the following line if you are using it on a CPU.
pip install llama-cpp-python

# # Run the following line if you are using GPU (T4, A100, A10, or H100), or any Nvidia Cuda based GPU Drivers.
CMAKE_ARGS= " -DLLAMA_CUDA=on " pip install llama-cpp-python

# # If you are on Mac or any other GPU types, you can refer the following links and setup the Llama-Cpp-Python

https://llama-cpp-python.readthedocs.io/en/stable/ # installation-configuration

https://llama-cpp-python.readthedocs.io/en/stable/install/macos/

rabbitmqとセロリの背景ジョブ処理のセットアップ
次のリンクを使用して、マシンにRabbitMQをセットアップします。ステップ5までの指示に従って、 admin-usernameとpasswordを保存します。
ubuntu 22.04にrabbitmqをセットアップします
RabbitMQを正常にセットアップしたら、Redis-ServerとCelryをセットアップします。次のコマンドを使用して、それらをセットアップしてインストールします。
```
sudo apt-get update -y
# # Try with apt-get. If it does not install, then run with apt. 
sudo apt-get install redis-server -y 
# # If the above does not work, try this:
sudo apt install redis-server -y
```
アプリケーションとパラレル実行セロリタスクを実行します

まず、フラスコのアプリケーションを開始します。

 cd /path/to/project/

次に、app.pyファイルを開きます。エディターをコードし、次の行を変更します。

 Line 18 :     broker = 'amqp://<user>:<password>$@localhost:5672//'

## Update <user> with "your-admin-username".
## Update <password> with "your-admin-password"
## Eg: broker='amqp://admin:hello_world$@localhost:5672//'

### IMPORTANT NOTE: If your password contains '@' symbol, you will need to convert it because it is the default delimiter in broker settings. Example if your password has @ symbol inside it would be. 
## broker='amqp://admin:hello%40world$@localhost:5672//'  -- where the original password was "hello@world", we represent it as 'hello%40world'

ファイルを更新した後、 setup.pyファイルを[ディレクトリ]をセットアップしてモデルのダウンロードに実行します。使用するモデルの構成を変更する場合は、インフラストラクチャのサイズとシステム容量に基づいて適切に変更できます。次の表は、現在このプロジェクトでサポートしているモデルを示していますが、それらが適合し、オープンソースが見られるように、新しいLLMSサポートを追加します。

サポートされている音声モデル

モデル名	モデルサイズ	必要なメモリ（RAMまたはVRAM）
蒸留/蒸留-v3	3.1 GB	4ギガバイト
蒸留/蒸留-large-v2	3.1 GB	4ギガバイト
蒸留 - 蒸留/med.en	1.6 GB	2 GB
distil-whisper/distil-small.en	680 MB	900 MB
Openai/Whisper-Large-V3	6.2 GB	7.5 GB
Openai/Whisper-Large-V2	6.2 GB	7.5 GB
Openai/Whisper-Large-V1	6.2 GB	7.5 GB
Openai/Whisper-Medium	3.2 GB	4.5 GB
Openai/Whisper-Small（デフォルト）	980 MB	1.7 GB

LLMSサポート

モデル名	モデルサイズ	メモリが必要です
QuantFactory/PHI-3-MINI-4K-INSTRUCT-GGUF（デフォルト）	1 GB -8 GB	2 GB -14 GB
QuantFactory/PHI-3-MINI-128K-INSTRUCT-GGUF	1 GB -8 GB	2.5 GB -16 GB
bartowski/phi-3-med-128k-instruct-gguf	3 GB -14 GB	6 GB -18 GB

選択したモデル名を使用してglobal_varibables.pyファイルを変更し、選択したモデルを自動的にダウンするsetup.pyファイルを実行する必要があります。

 Line 32 : DEFAULT_SPEECH_MODEL = "openai/whisper-small"
...
Line 46 : DEFAULT_SUMMARY_MODEL = ( "QuantFactory/Phi-3-mini-4k-instruct-GGUF" , "Phi-3-mini-4k-instruct.Q5_0.gguf" )


### After update the above lines as per your need, run the setup.py
python setup . py

新しいターミナルウィンドウ（ここでも仮想環境がアクティブ化されていることを確認）で、アプリとセロリワーカーを開始します。

python app.py # ensure your environment is activated

# and then in new terminal, run the following.
celery -A app.celery worker --loglevel=info -f celery.logs

録音をアップロードして形成します
Webブラウザを開き、FlaskアプリケーションのURL（通常http://127.0.0.1:5000 ）に移動します。インターフェイスを使用して、会議の録音をアップロードします。
最新のステータスを取得し、完了するのを待ちます
録音をアップロードした後、処理のステータスを確認できます。これは、アプリケーションのステータスページまたは進行状況バーとして実装できます。処理が完了するまで待ちます。
会議の最終処理分を参照してください（ママ）
処理が完了したら、アプリケーションは会議の最後の議事録を表示する必要があります。表示、編集（機能が利用可能な場合）、および参照のためにママを保存することができます。

2。機能：

オーディオおよびビデオファイルを正確なテキストトランスクリプトに簡単に変換します。これらを使用して、アクションアイテムを要約、生成、ワークフローの理解、リソース計画を使用することもできます。
迅速な参照のためのキーワードのハイライトとトピックタグ：トピックを抽出し、会議をスキップし、あなたの興味のある特定のトピックのみを聴くための関連するコンテンツを見つける。
PDFやプレーンテキストを含むさまざまな形式でのエクスポート：トランスクリプト、概要、トピックとキーワード、アクションアイテムなどをプロジェクト計画と管理フレームワークで利用できるドキュメントにエクスポートできます。また、テンプレートを手動で書き込んで生成する必要性を排除します。
簡単にカスタマイズと統合のためのユーザーフレンドリーなインターフェイス：選択したいオープンソースまたはクローズドソースモデルを簡単に調整できます。

アプローチと実装：

概要

コア機能は、Webアプリケーションのホームページを介して送信された会議の記録の処理を中心に展開します。録音が提出されると、セロリを使用してバックグラウンドタスクが開始され、2つの主要な操作が実行されます。音声からテキストへの変換と、変換されたテキストから会議の議事録を生成します。

実装

共有したフローチャートは、メディアファイルを処理および処理するための詳細なプロセスの概要を示しています。特に、音声入力とビデオ入力に焦点を当てて、転写と要約を生成します。各ステップを分解し、このワークフローに関連する高レベルのソリューションについて説明しましょう。

1。メディアファイルをアップロードします

メディアタイプ：mp3、wav、mp4ファイルをサポートします。
アクション：ユーザーはメディアファイルをシステムにアップロードします。

2。リアルタイム通知のための非同期ループ

目的：ユーザーにアップロードと処理のステータスについて通知し続けるため。
実装：非同期通知APIを使用して、リアルタイムの更新をユーザーに送信します。

3.アップロードされたファイルを読み取ります

アクション：システムはアップロードされたファイルを読み取り、タイプとコンテンツを決定します。

4。オーディオとビデオの分岐

オーディオ：
- 16 kHzに変換：一貫した処理のためにオーディオサンプルレートを標準化します。
- 転写：オーディオスピーチをテキストに変換します。
ビデオ：
- 抽出オーディオとフレーム（1フレーム/秒） ：処理用のオーディオトラックとビデオフレームを分離します。
- フレームあたりの短い概要：抽出されたフレームごとに簡単な要約を生成します。

5.すべての短い要約に参加して、メインの転写を作成します（ビデオ用）

アクション：すべての短い要約を、ビデオコンテンツの単一の包括的な転写に組み合わせます。

6。トークン> 4000の場合は分割します

目的：最大トークン入力制限がある可能性のある処理言語モデルの制限を処理します。
実装：転写がトークンの制限を超えた場合、コンテンツを管理可能な部分に分割します。

7。再帰的なママ語モデル

ビデオママを生成（会議の議事録） ：入力がビデオの場合は、転写から詳細な要約または数分を生成します。
再帰処理：より長いコンテンツの場合、情報を効果的に凝縮するために再帰的に要約します。

8。生成された要約とママ

アクション：転写されたテキストと処理されたテキストに基づいて、会議文書の最後の要約と議事録を作成します。

9。両方のママをマージし、新しいお母さんを獲得します

目的：さまざまなチャンク（以前に分割されている場合）の要約を最終的な包括的なドキュメントに組み合わせます。

10。プロセス完了の通知

通知APIとの統合：処理が完了していることをユーザーに通知し、生成された要約またはMOMドキュメントへのアクセスを提供します。

フロー図

データ準備ループフロー図

技術スタック：

バックエンド：Python、Flask
非同期タスクキュー：Redis、Celry
スピーチとテキスト：ささやき、より速いウィスパー、蒸留
テキスト処理用のLLM ：Phi3、Gemma 2、Llama 3
FrontEnd ：HTML、CSS、JavaScript

ユースケースとアプリケーション：✅

企業会議：さまざまな企業の集まり、取締役会、チームディスカッションに迅速かつ正確な議事録を提供することにより、生産性を向上させます。
教育機関：講師や学生が講義、セミナー、グループディスカッションを転写して要約するのに役立ちます。
法律および医療分野：法的手続き、インタビュー、患者の相談を正確に文書化するのに役立ちます。
アクセシビリティ：障害のある個人、特に音声のコンテンツをキャプチャして要約する自動化された方法を提供することにより、障害のある人、特にメモを取るのが難しい人を支援します。
イベントの報道：ジャーナリストやイベント主催者がスピーチ、プレゼンテーション、パネルディスカッションを転写するのに役立ち、レポート作成とイベントドキュメントを支援します。