Die Sprachtechnologie startet auf große Weise. Für Organisationen, Unternehmen und Einzelpersonen, die versuchen, Sinn für Stimme zu erkennen und wo sie sich in ihren technischen Architekturen befinden, kann es sehr verwirrend sein, die Open -Source -Angebote zu verstehen, die es gibt.
Dieses Repo ist eine Auflistung bekannter Open -Source -Sprachwerkzeuge, die durch diese Tools im Sprachstapel strukturiert sind.
| Webseite | Werkzeugname | Lizenz | Beschreibung |
|---|---|---|---|
| openslr.org | Ressourcen der offenen Sprache | N / A | Betrieben von @danpovey, der auch ein wichtiger Betreuer der Kaldi-ASR-Sprache zum Textwerkzeug ist |
| kaldi-asr.org | KALDI Automatisches Spracherkennungs -Toolkit. | Apache 2 | Eines der ersten Open -Source -Spracherkennungs -Toolkits. Akademische Referenz lautet: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Webseite | Werkzeugname | Lizenz | Beschreibung |
|---|---|---|---|
| Flowtron von Nvidia | Ein Tacotron-basierter Sprach-Synthsis-Tool, das für Tonhöhe und Prosodie optimiert werden kann und es von anderen Tacotron-basierten TTS-Implementierungen abhebt | Apache2 | Erstmals auf der GTC 2020 -Konferenz im Mai 2020 veröffentlicht. Academic Paper ist hier Avaialble. Zitat ist Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ Dies ist ein großartiger Artikel, der die Unterschiede in den Entwicklungen oder Generationen von Text zu Sprache erläutert - von verkettungsfähig zu statistischen Parametrie zu generativ . Modernere TTS -Ansätze wie Tacotron und Wavenet sind generative Ansätze.
| Webseite | Werkzeugname | Lizenz | Beschreibung |
|---|---|---|---|
| Mindmeld von Cisco | . | Apache2 | Die Mindmeld Conversational AI-Plattform gehört zu den fortschrittlichsten KI-Plattformen für die Konversationsanwendungen von Produktionsproduktionen. Es handelt sich um ein pythonbasiertes maschinelles Lernrahmen, das alle für diesen Zweck erforderlichen Algorithmen und Dienstprogramme umfasst. Mindmeld hat sich über mehrere Jahre nach dem Aufbau und Bereitstellen von Dutzenden der fortschrittlichsten Konversationserlebnisse entwickelt und ist für den Aufbau fortschrittlicher Konversationsassistenten optimiert, die ein tiefes Verständnis eines bestimmten Anwendungsfalls oder einer bestimmten Domäne zeigen und gleichzeitig äußerst nützliche und vielseitige Konversationserfahrungen bieten. Die akademische Referenz für dieses Tool lautet: |
Raghuvanshi, A., Carroll, L. und Raghunathan, K., 2018, November. Entwicklung von Konversationsschnittstellen auf Produktionsebene mit flachem semantischem Parsen. In Proceedings der Konferenz 2018 über empirische Methoden in der Verarbeitung natürlicher Sprache: Systemdemonstrationen (S. 157-162) |
MYCROFT.AI - Eine Open -Source -Voice -Assistentin, die auf einer Reihe von Linux -kompatiblen Hardware wie X86 oder Armgeräten wie Raspberry Pi arbeitet. Unterstützt von einer starken Gemeinschaft von Open -Source -Entwicklern.
Oval / Genie Project in Stanford - Finanziert von der Alfred P Sloan Foundation und von einem NIST -Stipendium, zielt das Oval Project von Stanford darauf ab, eine Open -Source -Alternative zu kommerziellen Sprachassistenten bereitzustellen. Das Projekt steckt derzeit in den Kinderschuhen und versucht, eine Open -Source -Community aufzubauen.
Python Natural Language Toolkit NLTK - NLTK ist eine führende Plattform zum Aufbau von Python -Programmen, um mit Daten der menschlichen Sprache zu arbeiten. Es bietet benutzerfreundliche Schnittstellen für über 50 Korpora- und lexikalische Ressourcen wie WordNet sowie eine Reihe von Bibliotheken zur Klassifizierung, Tokenisierung, Stamm, Tagging, Parsing und semantischem Denken, Verpackungen für NLP-Bibliotheken der industriellen Strecke und ein aktives Diskussionsforum.
ECCO EXMLAB - ECCO ist eine Python -Bibliothek, die NLP durch interaktive Visualisierungen erklärt.
Der Dettext von DEXTEXT -Quellcode ist ein tiefen Textverständnis -Framework für NLP -bezogene Ranking-, Klassifizierungs- und Sprachgenerierungsaufgaben. Es nutzt die semantische Übereinstimmung mit tiefen neuronalen Netzwerken, um die Absichten der Mitglieder bei der Suche und Empfehlungssystemen zu verstehen. Als allgemeines NLP-Framework kann der derzeit DECEXT auf viele Aufgaben angewendet werden, einschließlich Such- und Empfehlungsranking, Klassifizierung mit mehreren Klassen und Abfragen verstehen Aufgaben. Veröffentlicht vom AI -Team bei LinkedIn.
PGLEX - PGLEX wurde erstmals auf der ICLDC 7 -Konferenz im Jahr 2021 präsentiert und ist ein „ziemlich guter“ lexikaler Service, der den Bau von Wörterbuch -Websites und anderen Anwendungen, die lexikalische Daten enthalten, erleichtern. Mit PGLEX können Forscher einer Instanz der PGLEX-API lexikalische Einträge im JSON-Format zur Verfügung stellen und „ziemlich gute“ Suchergebnisse erhalten, ohne sprachspezifische Konfigurationen zu erfordern. Auf Elasticsearch gebaut.
Artie Bias Corpus - Ein Korpus und eine Reihe von Werkzeugen zur Erkennung des demografischen Verzerrung in ASR -Systemen.
[Blodgett, SL, Barocas, S., Daumé III, H. & Wallach, H. (2020). Sprache (Technologie) ist Macht: Eine kritische Übersicht über "Voreingenommenheit" in NLP. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
Zwangsaligner helfen dabei, Audioaufnahmen mit orthografischer Transkription auszurichten
ActiveClean - ActiveClean ist ein iteratives Reinigungsrahmen, mit dem das maschinelle Lernmodell bei der Reinigung von Daten korrekt überholt ist, und bietet eine Reihe von Optimierungen, um die besten Daten auszuwählen, die gereinigt werden sollen. Auf diese Weise müssen Sie nur eine kleine Teilmenge der Daten reinigen, um ein Modell zu erstellen, das dem vollständigen Datensatz gereinigt wurde. Geschrieben in Python.
Datalinter - Der Datenfonds identifiziert potenzielle Probleme (Lints) in Ihren ML -Trainingsdaten.
Holoclean - maschinelles Lernsystem für die Datenanreicherung
Es gibt auch BoostClean von der Columbia University, aber ich kann nirgendwo im Web eine Codereferenz finden.
Es gibt viele Begriffe und Akronyme in der Open -Source -Sprachtechnologie. Dieser Abschnitt enthält Erklärungen für jede von ihnen.
Cognitive arbitration : Der Prozess, den ein Sprachassistent verwendet, um zu verstehen, welche Dienste und Fähigkeiten ihm je nach Kontext zur Verfügung stehen - z. B. online oder offline.
CRF : Bedingte Zufallsfeld. Eine statistische Modellierungsmethode, die den Kontext berücksichtigen kann. Wird in einigen neuronalen Network-basierten Intent-Parsing- und Semantic Extraction Software verwendet.
LSTM : Langes Kurzzeitgedächtnis. Wird in wiederkehrenden neuronalen Netzwerken verwendet, um Datensequenzen wie Audio oder Sprache zu verarbeiten. Um zu wissen, was wahrscheinlich als nächstes kommen wird, zeichnet LSTM auf, was zuvor gekommen ist.
LVCSR : Großes Vokabular kontinuierliche Spracherkennung. Wird in Spracherkennungswerkzeugen verwendet, um zu bezeichnen, dass a) der Vokabular, auf dem der Erkenntnis funktioniert, nicht eingeschränkt oder eingeschränkt wurde - zum Beispiel, wenn es auf eingebetteten oder niedrig betriebenen Hardware eingesetzt wird, die nicht mit dem Speicher oder dem Berechnen der Anforderungen eines großen Vokabulars, B), nicht kontinuierlich funktioniert.