음성 기술은 큰 방법으로 이륙하고 있습니다. 조직, 비즈니스 및 개인이 목소리를 이해하려고 노력하고 기술 아키텍처의 위치에있는 곳에있는 오픈 소스 제품을 이해하는 것이 실제로 혼란 스러울 수 있습니다.
이 repo는 음성 스택에있는 도구가있는 곳으로 구성된 알려진 오픈 소스 음성 도구 목록입니다.
| 웹 사이트 | 도구 이름 | 특허 | 설명 |
|---|---|---|---|
| openslr.org | 오픈 연설 언어 리소스 | N/A | Kaldi-ASR Speech to Text Tool의 주요 관리자 인 @Danpovey가 운영 |
| Kaldi-asr.org | Kaldi 자동 음성 인식 툴킷. | 아파치 2 | 최초의 오픈 소스 음성 인식 툴킷 중 하나입니다. 학문적 참조 : Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| 웹 사이트 | 도구 이름 | 특허 | 설명 |
|---|---|---|---|
| NVIDIA의 FlowTron | 피치 및 번영을 위해 조정할 수있는 타코트론 기반 음성 신디시스 도구로 다른 타코트론 기반 TTS 구현과는 별도로 설정 | apache2 | 2020 년 5 월 GTC 2020 컨퍼런스에서 처음 출시되었습니다. 학문은 Avaialble입니다. 인용은 Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ 이것은 진화 또는 세대 의 텍스트마다 연설 의 차이점을 설명하는 훌륭한 기사입니다 . 타코트론과와 베넷과 같은보다 현대적인 TTS 접근법은 생성적인 접근법입니다.
| 웹 사이트 | 도구 이름 | 특허 | 설명 |
|---|---|---|---|
| Cisco의 Mindmeld | . | apache2 | Mindmeld Conversational AI 플랫폼은 생산 품질의 대화 응용 프로그램을 구축하기위한 가장 진보 된 AI 플랫폼 중 하나입니다. 이 목적에 필요한 모든 알고리즘과 유틸리티를 포함하는 파이썬 기반 머신 러닝 프레임 워크입니다. 수십 년 동안 가장 진보 된 대화 경험을 달성 할 수있는 수십 년 동안 진화 한 Mindmeld는 고급 대화 보조원을 구축하는 데 최적화되어 특정 사용 사례 또는 도메인에 대한 깊은 이해를 보여 주면서 매우 유용하고 다재다능한 대화 경험을 제공합니다. 이 도구에 대한 학문적 참조는 다음과 같습니다. |
Raghuvanshi, A., Carroll, L. 및 Raghunathan, K., 2018, 11 월. 얕은 시맨틱 구문 분석을 통해 생산 수준의 대화 인터페이스 개발. 자연 언어 처리의 경험적 방법에 관한 2018 회의의 절차에서 : 시스템 데모 (pp. 157-162) |
MyCroft.ai- X86과 같은 다양한 Linux 호환 하드웨어 또는 Raspberry Pi와 같은 ARM 장치에서 작동하는 오픈 소스의 계층 보조원. 오픈 소스 개발자의 강력한 커뮤니티가 지원합니다.
Stanford의 Oval / Genie Project- Alfred P Sloan Foundation과 NIST Grant가 자금을 지원하는 Stanford의 Oval Project는 상업용 음성 보조원에 대한 오픈 소스 대안을 제공하는 것을 목표로합니다. 이 프로젝트는 현재 초기 단계에 있으며 오픈 소스 커뮤니티를 구축하려고합니다.
Python Natural Language Toolkit NLTK -NLTK는 Python 프로그램을 구축하여 인간 언어 데이터를 사용하는 주요 플랫폼입니다. 분류, 토큰 화, 스템 밍, 태깅, 구문 분석 및 시맨틱 추론을위한 텍스트 처리 라이브러리와 함께 WordNet과 같은 50 개가 넘는 Corpora 및 어휘 리소스에 사용하기 쉬운 인터페이스를 제공합니다.
ECCO Districtab -ECCO는 대화식 시각화를 사용하여 NLP에 대한 설명을 제공하는 파이썬 라이브러리입니다.
Detext 소스 코드 Detext는 NLP 관련 순위, 분류 및 언어 생성 작업을위한 깊은 텍스트 이해 프레임 워크입니다. 깊은 신경망을 사용하여 의미 론적 매칭을 활용하여 검색 및 추천 시스템의 회원 의도를 이해합니다. 일반적인 NLP 프레임 워크로서 현재 DeText는 검색 및 권장 순위, 멀티 클래스 분류 및 쿼리 이해 작업을 포함한 많은 작업에 적용될 수 있습니다. LinkedIn의 AI 팀이 게시했습니다.
PGLEX- 2021 년 ICLDC 7 컨퍼런스에서 처음 발표 된 PGLEX는 사전 웹 사이트 및 어휘 데이터를 통합하는 기타 응용 프로그램의 구성을 촉진하기 위해 설계된 '매우 훌륭한'어휘 서비스입니다. PGLEX를 사용하면 연구원은 PGLEX API 인스턴스에 JSON 형식의 어휘 항목을 제공하고 언어 별 구성이 필요하지 않고 '매우 우수한'검색 결과를 얻을 수 있습니다. Elasticsearch를 기반으로합니다.
Artie Bias Corpus- ASR 시스템에서 인구 통계 학적 편견을 감지하기위한 코퍼스 및 도구 세트.
[Blodgett, SL, Barocas, S., Daumé III, H., & Wallach, H. (2020). 언어 (기술)는 전력 : NLP의 "바이어스"에 대한 중요한 조사. Arxiv preprint arxiv : 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
강제 조정기는 오디오 녹음을 직교 전사와 정렬하는 데 도움이됩니다.
ActiveClean -ActiveClean은 데이터가 정리 될 때 기계 학습 모델을 올바르게 재교육 할 수있는 반복적 인 청소 프레임 워크이며, 정리할 최상의 데이터를 선택하기위한 최적화 세트를 제공합니다. 이러한 방식으로 전체 데이터 세트가 정리 된 경우와 유사한 모델을 생성하기 위해 데이터의 작은 부분 집합 만 청소하면됩니다. 파이썬으로 작성되었습니다.
Datalinter- 데이터 라이터는 ML 교육 데이터에서 잠재적 인 문제 (LINT)를 식별합니다.
Holoclean- 데이터 강화를위한 기계 학습 시스템
_ 컬럼비아 대학교의 BoostClean 이지만 웹의 어느 곳에서나 코드 참조를 찾을 수 없습니다.
오픈 소스 음성 기술에는 많은 용어와 약어가 있습니다. 이 섹션은 각각에 대한 설명을 제공합니다.
Cognitive arbitration : 음성 보조원이 온라인 또는 오프라인과 같은 상황 에 따라 어떤 서비스와 기술을 이용할 수 있는지 이해하기 위해 사용하는 프로세스.
CRF : 조건부 랜덤 필드. 컨텍스트를 고려할 수있는 통계 모델링 방법. 일부 신경 네트워크 기반 의도 정당 및 시맨틱 추출 소프트웨어에 사용됩니다.
LSTM : 긴 단기 메모리. 반복 신경 네트워크 내에서 오디오 또는 음성과 같은 데이터 시퀀스를 처리하는 데 도움이됩니다. LSTM은 다음에 올 가능성을 알기 위해 이전에 왔던 것을 기록합니다.
LVCSR : 대규모 어휘 연속 음성 인식. 음성 인식 도구에 a) 인식 자의 작품이 제한되거나 제한되지 않았다는 것을 나타내는 음성 인식 도구 - 예를 들어, 대규모 어휘의 메모리 또는 계산 요구 사항을 처리 할 수없는 내장 또는 저전력 하드웨어에 배치 된 경우, B) WALK WORK를 제어하는 웨이크 워드 또는 키워드 스팟터와 대조적 으로 작동합니다.