opensource voice tools Download - opensource voice tools Quellcode herunterladen

opensource voice tools

AI-Quellcode

1.0.0

Herunterladen

Eine Auflistung von Open Source -Sprachwerkzeugen

Einführung

Die Sprachtechnologie startet auf große Weise. Für Organisationen, Unternehmen und Einzelpersonen, die versuchen, Sinn für Stimme zu erkennen und wo sie sich in ihren technischen Architekturen befinden, kann es sehr verwirrend sein, die Open -Source -Angebote zu verstehen, die es gibt.

Dieses Repo ist eine Auflistung bekannter Open -Source -Sprachwerkzeuge, die durch diese Tools im Sprachstapel strukturiert sind.

Transkription

Duca, Daniela. "Störung der Transkription - Wie die Automatisierung eine grundlegende Forschungsmethode transformiert." Auswirkungen der Sozialwissenschaften (Blog), 17. September 2019.

Wake Wörter

Rede zum Text

Webseite	Werkzeugname	Lizenz	Beschreibung
openslr.org	Ressourcen der offenen Sprache	N / A	Betrieben von @danpovey, der auch ein wichtiger Betreuer der Kaldi-ASR-Sprache zum Textwerkzeug ist
kaldi-asr.org	KALDI Automatisches Spracherkennungs -Toolkit.	Apache 2	Eines der ersten Open -Source -Spracherkennungs -Toolkits. Akademische Referenz lautet: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

Absicht Parsen

Absichtserklärung

Text zur Sprache

Webseite	Werkzeugname	Lizenz	Beschreibung
Flowtron von Nvidia	Ein Tacotron-basierter Sprach-Synthsis-Tool, das für Tonhöhe und Prosodie optimiert werden kann und es von anderen Tacotron-basierten TTS-Implementierungen abhebt	Apache2	Erstmals auf der GTC 2020 -Konferenz im Mai 2020 veröffentlicht. Academic Paper ist hier Avaialble. Zitat ist `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. "Ein Leitfaden für die Sprachsynthese von 2019 mit tiefem Lernen." Medium, 23. Juni 2020.

^ Dies ist ein großartiger Artikel, der die Unterschiede in den Entwicklungen oder Generationen von Text zu Sprache erläutert - von verkettungsfähig zu statistischen Parametrie zu generativ . Modernere TTS -Ansätze wie Tacotron und Wavenet sind generative Ansätze.

Chatbots und Konversations -UI -Tools

Webseite	Werkzeugname	Lizenz	Beschreibung
Mindmeld von Cisco	.	Apache2	Die Mindmeld Conversational AI-Plattform gehört zu den fortschrittlichsten KI-Plattformen für die Konversationsanwendungen von Produktionsproduktionen. Es handelt sich um ein pythonbasiertes maschinelles Lernrahmen, das alle für diesen Zweck erforderlichen Algorithmen und Dienstprogramme umfasst. Mindmeld hat sich über mehrere Jahre nach dem Aufbau und Bereitstellen von Dutzenden der fortschrittlichsten Konversationserlebnisse entwickelt und ist für den Aufbau fortschrittlicher Konversationsassistenten optimiert, die ein tiefes Verständnis eines bestimmten Anwendungsfalls oder einer bestimmten Domäne zeigen und gleichzeitig äußerst nützliche und vielseitige Konversationserfahrungen bieten. Die akademische Referenz für dieses Tool lautet:

Raghuvanshi, A., Carroll, L. und Raghunathan, K., 2018, November. Entwicklung von Konversationsschnittstellen auf Produktionsebene mit flachem semantischem Parsen. In Proceedings der Konferenz 2018 über empirische Methoden in der Verarbeitung natürlicher Sprache: Systemdemonstrationen (S. 157-162) |

Sprachassistentenverpackungen

MYCROFT.AI - Eine Open -Source -Voice -Assistentin, die auf einer Reihe von Linux -kompatiblen Hardware wie X86 oder Armgeräten wie Raspberry Pi arbeitet. Unterstützt von einer starken Gemeinschaft von Open -Source -Entwicklern.
Oval / Genie Project in Stanford - Finanziert von der Alfred P Sloan Foundation und von einem NIST -Stipendium, zielt das Oval Project von Stanford darauf ab, eine Open -Source -Alternative zu kommerziellen Sprachassistenten bereitzustellen. Das Projekt steckt derzeit in den Kinderschuhen und versucht, eine Open -Source -Community aufzubauen.

Verarbeitung natürlicher Sprache (NLP)

Python Natural Language Toolkit NLTK - NLTK ist eine führende Plattform zum Aufbau von Python -Programmen, um mit Daten der menschlichen Sprache zu arbeiten. Es bietet benutzerfreundliche Schnittstellen für über 50 Korpora- und lexikalische Ressourcen wie WordNet sowie eine Reihe von Bibliotheken zur Klassifizierung, Tokenisierung, Stamm, Tagging, Parsing und semantischem Denken, Verpackungen für NLP-Bibliotheken der industriellen Strecke und ein aktives Diskussionsforum.
ECCO EXMLAB - ECCO ist eine Python -Bibliothek, die NLP durch interaktive Visualisierungen erklärt.
Der Dettext von DEXTEXT -Quellcode ist ein tiefen Textverständnis -Framework für NLP -bezogene Ranking-, Klassifizierungs- und Sprachgenerierungsaufgaben. Es nutzt die semantische Übereinstimmung mit tiefen neuronalen Netzwerken, um die Absichten der Mitglieder bei der Suche und Empfehlungssystemen zu verstehen. Als allgemeines NLP-Framework kann der derzeit DECEXT auf viele Aufgaben angewendet werden, einschließlich Such- und Empfehlungsranking, Klassifizierung mit mehreren Klassen und Abfragen verstehen Aufgaben. Veröffentlicht vom AI -Team bei LinkedIn.
PGLEX - PGLEX wurde erstmals auf der ICLDC 7 -Konferenz im Jahr 2021 präsentiert und ist ein „ziemlich guter“ lexikaler Service, der den Bau von Wörterbuch -Websites und anderen Anwendungen, die lexikalische Daten enthalten, erleichtern. Mit PGLEX können Forscher einer Instanz der PGLEX-API lexikalische Einträge im JSON-Format zur Verfügung stellen und „ziemlich gute“ Suchergebnisse erhalten, ohne sprachspezifische Konfigurationen zu erfordern. Auf Elasticsearch gebaut.

Voreingenommenheit bei Sprachassistenten und NLP

Artie Bias Corpus - Ein Korpus und eine Reihe von Werkzeugen zur Erkennung des demografischen Verzerrung in ASR -Systemen.
[Blodgett, SL, Barocas, S., Daumé III, H. & Wallach, H. (2020). Sprache (Technologie) ist Macht: Eine kritische Übersicht über "Voreingenommenheit" in NLP. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

Sprechererkennung

Alize Open Source Toolkit für die Erkennung von Lautsprechern - ein plattformübergreifendes Open -Source -Lautsprecher -Erkennungs -Toolkit von Laboratoire Informatique d'Avignon, Frankreich.

Erzwungene Aligner

Zwangsaligner helfen dabei, Audioaufnahmen mit orthografischer Transkription auszurichten

Aeneas | DOCS ist eine Python/C -Bibliothek und eine Reihe von Tools zur automatischen Synchronisierung von Audio und Text (auch als erzwungene Ausrichtung).

Sprach- und Sprachkorpora

Berlin Datenbank für emotionale Sprache - Ein markiertes Korpus (in Deutsch/Deutsche) von Sprachmarkierte mit Emotionen markiert.
Der Stapel - Der Stapel ist ein 825 -diversiger Open -Source -Sprachmodellierungsdatensatz, der aus 22 kleineren hochwertigen Datensätzen zusammen besteht.

Datenreinigung und Reparaturwerkzeuge

ActiveClean - ActiveClean ist ein iteratives Reinigungsrahmen, mit dem das maschinelle Lernmodell bei der Reinigung von Daten korrekt überholt ist, und bietet eine Reihe von Optimierungen, um die besten Daten auszuwählen, die gereinigt werden sollen. Auf diese Weise müssen Sie nur eine kleine Teilmenge der Daten reinigen, um ein Modell zu erstellen, das dem vollständigen Datensatz gereinigt wurde. Geschrieben in Python.
Datalinter - Der Datenfonds identifiziert potenzielle Probleme (Lints) in Ihren ML -Trainingsdaten.
Holoclean - maschinelles Lernsystem für die Datenanreicherung

Es gibt auch BoostClean von der Columbia University, aber ich kann nirgendwo im Web eine Codereferenz finden.

Maschinelle Übersetzung

Keine Sprache zurückgelassen - von Meta veröffentlicht, zielt das NLLB -Projekt darauf ab, Sprachen mit niedrigen Ressourcen zugänglich zu machen, indem ein maschinelles Übersetzungsmodell bereitgestellt wird, das zwischen 200 Sprachen übersetzt werden kann. Das Modell wird unter Verwendung eines menschlichen übersetzten Benchmarks, Flores-200, bewertet und 44% besser als die hochmodernen ART-Scores unter Verwendung von Bleu ab.

Auflistungen für Papiere

@Mutianns Sprachrangliste - Diese Website richtet akademische Papiere nach Zitaten wie [CSRankings]. Von user @mutiann zusammengestellt.

Glossar

Es gibt viele Begriffe und Akronyme in der Open -Source -Sprachtechnologie. Dieser Abschnitt enthält Erklärungen für jede von ihnen.

Cognitive arbitration : Der Prozess, den ein Sprachassistent verwendet, um zu verstehen, welche Dienste und Fähigkeiten ihm je nach Kontext zur Verfügung stehen - z. B. online oder offline.
CRF : Bedingte Zufallsfeld. Eine statistische Modellierungsmethode, die den Kontext berücksichtigen kann. Wird in einigen neuronalen Network-basierten Intent-Parsing- und Semantic Extraction Software verwendet.
LSTM : Langes Kurzzeitgedächtnis. Wird in wiederkehrenden neuronalen Netzwerken verwendet, um Datensequenzen wie Audio oder Sprache zu verarbeiten. Um zu wissen, was wahrscheinlich als nächstes kommen wird, zeichnet LSTM auf, was zuvor gekommen ist.
LVCSR : Großes Vokabular kontinuierliche Spracherkennung. Wird in Spracherkennungswerkzeugen verwendet, um zu bezeichnen, dass a) der Vokabular, auf dem der Erkenntnis funktioniert, nicht eingeschränkt oder eingeschränkt wurde - zum Beispiel, wenn es auf eingebetteten oder niedrig betriebenen Hardware eingesetzt wird, die nicht mit dem Speicher oder dem Berechnen der Anforderungen eines großen Vokabulars, B), nicht kontinuierlich funktioniert.