LLM Minutes of Meeting Besprechungsdownloads - LLM Minutes of Meeting Besprechungsquellencode -Downloads

LLM Minutes of Meeting

Website-Daten

1.0.0

Herunterladen

LLM-Minute-of-Meeting

Inhaltsverzeichnis

Sr. Nr.	Thema	Link
0.	Einführung und "Warum" des Projekts	Link wird hierher kommen
1.	Einrichtung und Installation	Link wird hierher kommen
2.	Merkmale	Ein weiterer Link
3.	Demo- und Anwendungssindrusshots	Ein weiterer Link
4.	Ansatz und Implementierung*	Ein weiterer Link
5.	Aktuelle Updates und zukünftige Anweisungen	Ein weiterer Link
6.	Beiträge	Ein weiterer Link
7.	Probleme/Fehlerbehebung	Ein weiterer Link

0. Einführung und "Warum" des Projekts

METZEN MINISE AI Image

Das Hauptziel dieses Projekts ist es, die Fähigkeit von NLP & LLM zu demonstrieren, lange Besprechungen schnell zusammenzufassen und Ihnen und Ihrer Organisation zu helfen, die Aufgabe der Delegierung von MOM -E -Mails (MOM) zu automatisieren. Es verwendet einen Stufe 2 -Schritt -Ansatz, bei dem Schritt 1 der Konvertierung einer Audio-/Videodatei in eine Textgespräch entspricht. In Schritt 2 wird Text verwendet, der in Schritt 1 erstellt wurde, und generieren Sie Protokolle der Besprechung und detaillierte Zusammenfassungsnotizen. Diese Minuten des Treffens sind ein edierbares Textstück. Sobald Sie die Mutter fertiggestellt haben, können Sie sie nach Ihren Wünschen weiter verwenden.

Das langfristige Ziel für dieses Repository ist es auch, eine Echtzeit-Python-Webanwendung zu entwickeln, mit der Sie am Ende des Meetings an Besprechungen für Sie teilnehmen und Ihnen auch Mama zur Verfügung stellen können. Machen Sie Babyschritte und versuchen Sie, durch ein kurzfristiges Ziel zu erreichen.

Zu Ihren Informationen: Ich arbeite an feinstimmigen kundenspezifischen LLMs und Entwicklung. Bitte seien Sie geduldig, während das gesamte Projekt völlig stabil ist. Ich werde nach Abschluss der Schulungen und Inferenzcode hinzufügen. Machen Sie dieses Repository, wenn Sie die neuesten Updates kennen müssen. ? Schätzen Sie Ihre Zeit.

1. Setup und Installation

Stellen Sie vor dem Fahren sicher, dass Sie die folgenden Installation haben:

Ubuntu 22.04 oder neuest.
Python (v3.10 oder höher)
Ein virtuelles Umgebungswerkzeug wie virtualenv oder venv .

Beginnen wir jetzt mit den Installationsschritten.

Klonen Sie das Github -Repository
Öffnen Sie Ihr Terminal oder die Eingabeaufforderung und navigieren Sie zum Verzeichnis, in dem Sie das Repository klonen möchten. Dann rennen:
```
git clone https://github.com/inboxpraveen/LLM-Minutes-of-Meeting
cd LLM-Minutes-of-Meeting
```

Anforderungen installieren

Es ist eine gute Praxis, eine virtuelle Umgebung zu schaffen, bevor Abhängigkeiten installiert werden, um potenzielle Konflikte mit anderen Python -Projekten zu vermeiden. Wenn Sie virtualenv verwenden, können Sie wie folgt eine neue Umgebung einrichten:

 # # Create a python virtual environment and activate it.
# Install the required packages after activating:
pip install -r requirements.txt

# # After this, let's install Llama-Cpp-Python binding which will be used to interact with LLMs. 

# # Run the following line if you are using it on a CPU.
pip install llama-cpp-python

# # Run the following line if you are using GPU (T4, A100, A10, or H100), or any Nvidia Cuda based GPU Drivers.
CMAKE_ARGS= " -DLLAMA_CUDA=on " pip install llama-cpp-python

# # If you are on Mac or any other GPU types, you can refer the following links and setup the Llama-Cpp-Python

https://llama-cpp-python.readthedocs.io/en/stable/ # installation-configuration

https://llama-cpp-python.readthedocs.io/en/stable/install/macos/

Setup Rabbitmq & Sellerie -Hintergrund -Jobverarbeitung einrichten
Verwenden Sie den folgenden Link zum Setup Rabbitmq auf Ihrer Maschine. Befolgen Sie die Anweisungen bis Schritt 5 und speichern Sie Ihren admin-username und password .
Setup Rabbitmq auf Ubuntu 22.04 einrichten
Sobald Sie Rabbitmq erfolgreich eingerichtet haben, dann setzten Sie Redis-Server und Sellerie ein. Verwenden Sie den folgenden Befehl, um sie einzurichten und zu installieren.
```
sudo apt-get update -y
# # Try with apt-get. If it does not install, then run with apt. 
sudo apt-get install redis-server -y 
# # If the above does not work, try this:
sudo apt install redis-server -y
```
Führen Sie die Anwendung und parallel ausgeführte Sellerie -Aufgabe aus

Starten Sie zunächst die Flask -Anwendung:

 cd /path/to/project/

Öffnen Sie die Datei App.py in Ihrem Code -Editor und ändern Sie die folgende Zeile.

 Line 18 :     broker = 'amqp://<user>:<password>$@localhost:5672//'

## Update <user> with "your-admin-username".
## Update <password> with "your-admin-password"
## Eg: broker='amqp://admin:hello_world$@localhost:5672//'

### IMPORTANT NOTE: If your password contains '@' symbol, you will need to convert it because it is the default delimiter in broker settings. Example if your password has @ symbol inside it would be. 
## broker='amqp://admin:hello%40world$@localhost:5672//'  -- where the original password was "hello@world", we represent it as 'hello%40world'

Nachdem Sie die Datei aktualisiert haben, führen Sie die Datei setup.py auf Setup -Verzeichnisse und Herunterladen von Modellen aus. Wenn Sie die Konfigurationen, welche Modelle Sie verwenden möchten, ändern möchten, können Sie sie basierend auf Ihrer Infrastrukturgröße und Systemkapazität ordnungsgemäß ändern. Die folgende Tabelle zeigt, welche Modelle wir derzeit in diesem Projekt unterstützen, aber wir werden neue LLMS-Unterstützung hinzufügen, da wir sie sehen und Open-Source.

Sprachmodelle unterstützt

Modellname	Modellgröße	Speicher erforderlich (RAM oder VRAM)
Distil-Whisper/Distil-Large-V3	3.1 GB	4 GB
Distil-Whisper/Distil-Large-V2	3.1 GB	4 GB
Distil-Whisper/Distil-Medium	1,6 GB	2 GB
Distil-Whisper/Distil-Small.en	680 MB	900 MB
OpenAI/Whisper-Large-V3	6,2 GB	7,5 GB
OpenAI/Whisper-Large-V2	6,2 GB	7,5 GB
OpenAI/Whisper-Large-V1	6,2 GB	7,5 GB
Openai/Flüstermedium	3,2 GB	4,5 GB
OpenAI/Whisper-Small (Standard)	980 MB	1,7 GB

LLMs unterstützt

Modellname	Modellgröße	Speicher erforderlich
QuantFactory/Phi-3-Mini-4K-Instruct-GGUF (Standard)	1 GB - 8 GB	2 GB - 14 GB
Quantfaktorisch/phi-3-mini-128K-Instruct-gguf	1 GB - 8 GB	2,5 GB - 16 GB
Bartowski/Phi-3-Medium-128K-Instruct-Gguf	3 GB - 14 GB	6 GB - 18 GB

Sie müssen die Datei global_varibables.py mit dem von Ihnen ausgewählten Modellnamen ändern und dann die Datei setup.py ausführen, die automatisch die von Ihnen ausgewählten Modelle herunterfindet.

 Line 32 : DEFAULT_SPEECH_MODEL = "openai/whisper-small"
...
Line 46 : DEFAULT_SUMMARY_MODEL = ( "QuantFactory/Phi-3-mini-4k-instruct-GGUF" , "Phi-3-mini-4k-instruct.Q5_0.gguf" )


### After update the above lines as per your need, run the setup.py
python setup . py

Starten Sie in einem neuen Terminalfenster (stellen Sie sicher, dass Ihre virtuelle Umgebung auch hier aktiviert ist) die App- und Sellerie -Arbeiterin:

python app.py # ensure your environment is activated

# and then in new terminal, run the following.
celery -A app.celery worker --loglevel=info -f celery.logs

Laden Sie die Aufnahme hoch, um sie zu formen
Öffnen Sie Ihren Webbrowser und navigieren Sie zur URL der Flash -Anwendung (normalerweise http://127.0.0.1:5000 ). Verwenden Sie die Schnittstelle, um Ihre Besprechungsaufzeichnung hochzuladen.
Erhalten Sie den neuesten Status und warten Sie, bis er abgeschlossen ist
Nach dem Hochladen der Aufzeichnung können Sie den Status der Verarbeitung überprüfen. Dies kann als Statusseite oder eine Fortschrittsleiste in Ihrer Anwendung implementiert werden. Warten Sie, bis die Verarbeitung abgeschlossen ist.
Siehe die endgültigen verarbeiteten Minuten des Meetings (Mama)
Sobald die Verarbeitung abgeschlossen ist, sollte die Anwendung die letzten Protokolle des Meetings anzeigen. Sie können anzeigen, bearbeiten (wenn die Funktion verfügbar ist) und die Mutter für Ihre Referenz speichern.

2. Merkmale:

Mühelos Audio- und Videodateien in genaue Text-Transkripte konvertieren: Diese können auch zum Zusammenfassen, Generieren von Aktionselementen, Verständnis von Arbeitsflüssen und Ressourcenplanung verwendet werden.
Keyword -Hervorhebung und Themen -Tagging für schnelle Referenz: Extrahieren von Themen und fundierte Inhalte, um Besprechungen zu überspringen und nur bestimmte Themen anzuhören, die von Ihrem Interesse sind.
Exportieren Sie die Minuten in verschiedenen Formaten, einschließlich PDF und einfachem Text: Ermöglicht Ihnen die Einfuhr von Transkripten, Zusammenfassungen, Themen und Keywords, Aktionselementen usw. in Dokumente, die in Rahmenbedingungen für Projektplanungs- und Verwaltungsrahmen verwendet werden können. Beseitigt auch Ihre Notwendigkeit, Vorlagen manuell zu schreiben und zu generieren.
Benutzerfreundliche Schnittstelle zur einfachen Anpassung und Integration: Einfach zu optimieren, das jemals Open-Source- oder geschlossene Quellmodell auswählen.

Ansatz und Implementierung:

Überblick

Die Kernfunktionalität dreht sich um die über die Startseite der Webanwendung eingereichten Verarbeitung von Besprechungsaufzeichnungen. Sobald eine Aufzeichnung eingereicht wurde, wird eine Hintergrundaufgabe unter Verwendung von Sellerie initiiert, die zwei primäre Vorgänge ausführt: Rede-zu-Text-Konvertierung und Generierung von Minuten des Meetings aus dem konvertierten Text.

Durchführung

Das von Ihnen geteilte Flowdiagramm beschreibt einen detaillierten Prozess für die Handhabung und Verarbeitung von Mediendateien, insbesondere auf Audio- und Videoeingänge, um Transkriptionen und Zusammenfassungen zu generieren. Lassen Sie uns jeden Schritt aufschlüsseln und die hochrangigen Lösungen für diesen Workflow beschreiben:

1. Laden Sie die Mediendatei hoch hoch

Medientypen : Unterstützt MP3-, WAV-, MP4 -Dateien.
Aktion : Benutzer laden ihre Mediendateien in das System hoch.

2. Async-Schleife für die Echtzeitbenachrichtigung

Zweck : Um Benutzer über den Status ihres Uploads und der Verarbeitung auf dem Laufenden zu halten.
Implementierung : Verwenden Sie eine asynchrone Benachrichtigungs-API, um Echtzeit-Updates an den Benutzer zu senden.

3.. Die hochgeladene Datei lesen

Aktion : Das System liest die hochgeladene Datei, um den Typ und den Inhalt zu bestimmen.

4. Verzweigungen auf Audio und Video

Audio :
- Konvertieren Sie in 16 kHz : Standardisieren Sie die Audio -Stichprobenrate für die konsistente Verarbeitung.
- Transkribe : Konvertieren Sie die Audio -Sprache in Text.
Video :
- Extrahieren Sie Audio und Frames (1 Frame/Second) : separate Audio -Track- und Video -Frames für die Verarbeitung.
- Kurze Zusammenfassung pro Rahmen : Erzeugen Sie eine kurze Zusammenfassung für jeden extrahierten Rahmen.

5. Treten Sie allen kurzen Zusammenfassung bei und erstellen Sie die Haupttranskription (für Video)

Aktion : Kombinieren Sie alle kurzen Zusammenfassungen zu einer einzigen umfassenden Transkription des Videoinhalts.

6. Teilen Sie, wenn Anzahl der Token> 4000

Zweck : Behandeln Sie die Einschränkungen des Verarbeitungssprachmodells, die möglicherweise eine maximale Token -Eingangsbegrenzung haben.
Implementierung : Wenn die Transkription die Token -Grenze überschreitet, teilen Sie den Inhalt in überschaubare Teile auf.

7. Rekursives Muttersprachmodell

Generieren Sie eine Videomutter (Minuten des Treffens) : Wenn die Eingabe ein Video ist, generieren Sie eine detaillierte Zusammenfassung oder Minuten aus der Transkription.
Rekursive Verarbeitung : Für längere Inhalte fassen Sie rekursiv zusammen, um die Informationen effektiv zu kondensieren.

8. Zusammenfassung und Mutter erzeugt

Aktion : Erstellen Sie eine endgültige Zusammenfassung und das Protokoll des Besprechungsdokuments basierend auf dem transkribierten und verarbeiteten Text.

9. Fucken Sie beide Mutter zusammen und holen Sie sich eine neue Mutter

Zweck : Kombinieren Sie Zusammenfassungen aus verschiedenen Brocken (falls zuvor geteilt) in ein endgültiges umfassendes Dokument.

10. Benachrichtigung über den Vervollständigungsprozessabschluss

Integration mit Benachrichtigungs -API : Informieren Sie den Benutzer, dass die Verarbeitung abgeschlossen ist, und ermöglichen Zugriff auf die generierten Zusammenfassungen oder MOM -Dokumente.

Flussdiagramm

Datenvorbereitungsschleifungsdiagramm

Technischer Stack:

Back-End : Python, Flask
Asynchrone Task -Warteschlange : Redis, Sellerie
Sprach-zu-Text : Flüstern, schneller-Whisper, Distil-Whisper
LLM für die Textverarbeitung : Phi3, Gemma 2, Lama 3
Frontend : HTML, CSS, JavaScript

Anwendungsfälle und Anwendungen: ✅

Unternehmenstreffen : Verbessert die Produktivität durch schnelle und genaue Minuten für verschiedene Unternehmensversammlungen, Vorstandssitzungen und Teamdiskussionen.
Bildungseinrichtungen : Nützlich für Dozenten und Studenten, um Vorträge, Seminare und Gruppendiskussionen zu transkribieren und zusammenzufassen.
Rechts- und medizinische Bereiche : Hilft bei der korrekten Dokumentation von Gerichtsverfahren, Interviews und Patientenkonsultationen.
Barrierefreiheit : Hilft Menschen mit Behinderungen, insbesondere für diejenigen, die Schwierigkeiten bei der Notiz haben, eine automatisierte Möglichkeit, gesprochene Inhalte zu erfassen und zusammenzufassen.
Ereignisberichterstattung : Nützlich für Journalisten und Veranstalter, um Reden, Präsentationen und Podiumsdiskussionen zu transkribieren und bei der Erstellung von Berichten und der Veranstaltungsdokumentation zu helfen.

Zukünftiger Bereich und Verbesserungen:?

Integration mit Videokonferenzwerkzeugen zur Direktaufzeichnungserfassung.
Mehrsprachige Unterstützung für die Rede-zu-Text-Konvertierung.
Verbesserte Summarierungsfunktionen, die auf bestimmte Besprechungstypen zugeschnitten sind (z. B. technische, Geschäftsstrategie).
Echtzeit-Transkriptions- und Zusammenfassungsfunktionen.
Benutzeranpassungsoptionen für die Formatierung der Minuten.

Beispiel -Screenshots der Anwendung:

Startbildschirm.

Screenshot 1

Neue Protokolle des Dialogs zu treffen

Screenshot 2

Laden Sie Video/Audio -Datei hoch.

Screenshot 3

Benachrichtigungszentrum - Begann mit der Verarbeitung

Screenshot 4

Benachrichtigungszentrum - in Prgress Echtzeit -Updates

Screenshot 5

Benachrichtigungszentrum - Abgeschlossene Verarbeitung

Screenshot 6

Letzte Protokollseite der Treffenseite

Screenshot 7

Benachrichtigungszentrum - Mehrfachdateistatus

Screenshot 8

Benachrichtigungszentrum - Mehrfachdateistatus

Screenshot 9

Benachrichtigungszentrum - Mehrfachdateistatus

Screenshot 10

Ausführen des Tools lokal ausführen:?

Voraussetzungen

Stellen Sie vor dem Fahren sicher, dass Sie die folgenden Installation haben:

Ubuntu 22.04 oder neuest.
Python (v3.10 oder höher)
Ein virtuelles Umgebungswerkzeug wie virtualenv oder venv .

Installation und Setup:

Fehlerbehebung: ?

Stellen Sie sicher, dass alle Umgebungsvariablen, die von Anwendung und Sellerie erforderlich sind, korrekt eingestellt sind.
Überprüfen Sie die Fehlermeldungen in den Ausgängen des Kolbens und der Sellerie.
Stellen Sie sicher, dass die Versionen von Python und die Pakete in requirements.txt kompatibel sind.

Phase 2 - Echtzeit -Transkriptionen: ⏭️

In Phase 2 unseres Projekts planen wir, die Transkription in Echtzeit zu ermöglichen. Gestalten Sie mit uns die Zukunft effizienter und kollaborativer Meetings!

Bleiben Sie aktualisiert:

? Folgen Sie mir, um Aktualisierungen der Entwicklung von Phase 2 und anderen Verbesserungen zu aktualisieren, um Ihre Besprechungen noch produktiver zu gestalten.

Beiträge willkommen:

? ‍ Ermutigen Sie Beiträge der Community, dieses Tool zu einem Spielveränderer für Besprechungen überall zu machen. Tragen Sie Ihre Ideen und Ihre Fachkenntnisse bei, um uns in Echtzeit-Transkription zu unterstützen!

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Website-Daten
Aktualisierungszeit 2025-07-05
Größe 4.98MB
Kommt von Github

Ähnliche Anwendungen

TensorRT LLM

2024-11-10
Company of Heroes: Tales of Valor

2022-09-04
Zeitalter der Mythologie: Geschichte vom Drachen

2022-08-29
44 Minuten in Nightmare

2022-08-02
20 Minuten bis zum Morgengrauen

2022-07-26
Roark Meeting Konferenzmanagementsystem

2012-06-05