opensource voice tools 다운로드 - opensource voice tools 소스 코드 다운로드

opensource voice tools

AI 소스 코드

1.0.0

다운로드

오픈 소스 음성 도구 목록

소개

음성 기술은 큰 방법으로 이륙하고 있습니다. 조직, 비즈니스 및 개인이 목소리를 이해하려고 노력하고 기술 아키텍처의 위치에있는 곳에있는 오픈 소스 제품을 이해하는 것이 실제로 혼란 스러울 수 있습니다.

이 repo는 음성 스택에있는 도구가있는 곳으로 구성된 알려진 오픈 소스 음성 도구 목록입니다.

전사

Duca, Daniela. "전사 방해 - 자동화가 기본 연구 방법을 변화시키는 방법." 사회 과학의 영향 (블로그), 2019 년 9 월 17 일. https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-how-technology-is-transforming-a-foundational-research-method/.

깨우기

텍스트로 연설

웹 사이트	도구 이름	특허	설명
openslr.org	오픈 연설 언어 리소스	N/A	Kaldi-ASR Speech to Text Tool의 주요 관리자 인 @Danpovey가 운영
Kaldi-asr.org	Kaldi 자동 음성 인식 툴킷.	아파치 2	최초의 오픈 소스 음성 인식 툴킷 중 하나입니다. 학문적 참조 : `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

의도 파싱

의도 해상도

연설에 텍스트

웹 사이트	도구 이름	특허	설명
NVIDIA의 FlowTron	피치 및 번영을 위해 조정할 수있는 타코트론 기반 음성 신디시스 도구로 다른 타코트론 기반 TTS 구현과는 별도로 설정	apache2	2020 년 5 월 GTC 2020 컨퍼런스에서 처음 출시되었습니다. 학문은 Avaialble입니다. 인용은 `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. "딥 러닝으로 연설 합성에 대한 2019 안내서." 2020 년 6 월 23 일 중간.

^ 이것은 진화 또는 세대 의 텍스트마다 연설 의 차이점을 설명하는 훌륭한 기사입니다 . 타코트론과와 베넷과 같은보다 현대적인 TTS 접근법은 생성적인 접근법입니다.

챗봇 및 대화식 UI 도구

웹 사이트	도구 이름	특허	설명
Cisco의 Mindmeld	.	apache2	Mindmeld Conversational AI 플랫폼은 생산 품질의 대화 응용 프로그램을 구축하기위한 가장 진보 된 AI 플랫폼 중 하나입니다. 이 목적에 필요한 모든 알고리즘과 유틸리티를 포함하는 파이썬 기반 머신 러닝 프레임 워크입니다. 수십 년 동안 가장 진보 된 대화 경험을 달성 할 수있는 수십 년 동안 진화 한 Mindmeld는 고급 대화 보조원을 구축하는 데 최적화되어 특정 사용 사례 또는 도메인에 대한 깊은 이해를 보여 주면서 매우 유용하고 다재다능한 대화 경험을 제공합니다. 이 도구에 대한 학문적 참조는 다음과 같습니다.

Raghuvanshi, A., Carroll, L. 및 Raghunathan, K., 2018, 11 월. 얕은 시맨틱 구문 분석을 통해 생산 수준의 대화 인터페이스 개발. 자연 언어 처리의 경험적 방법에 관한 2018 회의의 절차에서 : 시스템 데모 (pp. 157-162) |

음성 보조 포장지

MyCroft.ai- X86과 같은 다양한 Linux 호환 하드웨어 또는 Raspberry Pi와 같은 ARM 장치에서 작동하는 오픈 소스의 계층 보조원. 오픈 소스 개발자의 강력한 커뮤니티가 지원합니다.
Stanford의 Oval / Genie Project- Alfred P Sloan Foundation과 NIST Grant가 자금을 지원하는 Stanford의 Oval Project는 상업용 음성 보조원에 대한 오픈 소스 대안을 제공하는 것을 목표로합니다. 이 프로젝트는 현재 초기 단계에 있으며 오픈 소스 커뮤니티를 구축하려고합니다.

자연어 처리 (NLP)

Python Natural Language Toolkit NLTK -NLTK는 Python 프로그램을 구축하여 인간 언어 데이터를 사용하는 주요 플랫폼입니다. 분류, 토큰 화, 스템 밍, 태깅, 구문 분석 및 시맨틱 추론을위한 텍스트 처리 라이브러리와 함께 WordNet과 같은 50 개가 넘는 Corpora 및 어휘 리소스에 사용하기 쉬운 인터페이스를 제공합니다.
ECCO Districtab -ECCO는 대화식 시각화를 사용하여 NLP에 대한 설명을 제공하는 파이썬 라이브러리입니다.
Detext 소스 코드 Detext는 NLP 관련 순위, 분류 및 언어 생성 작업을위한 깊은 텍스트 이해 프레임 워크입니다. 깊은 신경망을 사용하여 의미 론적 매칭을 활용하여 검색 및 추천 시스템의 회원 의도를 이해합니다. 일반적인 NLP 프레임 워크로서 현재 DeText는 검색 및 권장 순위, 멀티 클래스 분류 및 쿼리 이해 작업을 포함한 많은 작업에 적용될 수 있습니다. LinkedIn의 AI 팀이 게시했습니다.
PGLEX- 2021 년 ICLDC 7 컨퍼런스에서 처음 발표 된 PGLEX는 사전 웹 사이트 및 어휘 데이터를 통합하는 기타 응용 프로그램의 구성을 촉진하기 위해 설계된 '매우 훌륭한'어휘 서비스입니다. PGLEX를 사용하면 연구원은 PGLEX API 인스턴스에 JSON 형식의 어휘 항목을 제공하고 언어 별 구성이 필요하지 않고 '매우 우수한'검색 결과를 얻을 수 있습니다. Elasticsearch를 기반으로합니다.

음성 조수 및 NLP의 편견

Artie Bias Corpus- ASR 시스템에서 인구 통계 학적 편견을 감지하기위한 코퍼스 및 도구 세트.
[Blodgett, SL, Barocas, S., Daumé III, H., & Wallach, H. (2020). 언어 (기술)는 전력 : NLP의 "바이어스"에 대한 중요한 조사. Arxiv preprint arxiv : 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

스피커 인식

스피커 인식을위한 Alize 오픈 소스 툴킷 - Laboratoire Informatique D 'Avignon, France의 크로스 플랫폼, 오픈 소스 스피커 인식 툴킷.

강제 조정기

강제 조정기는 오디오 녹음을 직교 전사와 정렬하는 데 도움이됩니다.

Aeneas | 문서는 오디오 및 텍스트 (일명 강제 정렬)를 자동으로 동기화하는 Python/C 라이브러리 세트입니다.

음성 및 언어 Corpora

베를린 감정 연설 데이터베이스 - 감정으로 태그가 지정된 연설의 태그가 지정된 코퍼스 (독일/도이치치).
파일 - 파일은 825 개의 GIB 다양한 오픈 소스 언어 모델링 데이터 세트로 22 개의 더 작은 고품질 데이터 세트로 구성되어 있습니다.

데이터 정리 및 수리 도구

ActiveClean -ActiveClean은 데이터가 정리 될 때 기계 학습 모델을 올바르게 재교육 할 수있는 반복적 인 청소 프레임 워크이며, 정리할 최상의 데이터를 선택하기위한 최적화 세트를 제공합니다. 이러한 방식으로 전체 데이터 세트가 정리 된 경우와 유사한 모델을 생성하기 위해 데이터의 작은 부분 집합 만 청소하면됩니다. 파이썬으로 작성되었습니다.
Datalinter- 데이터 라이터는 ML 교육 데이터에서 잠재적 인 문제 (LINT)를 식별합니다.
Holoclean- 데이터 강화를위한 기계 학습 시스템

_ 컬럼비아 대학교의 BoostClean 이지만 웹의 어느 곳에서나 코드 참조를 찾을 수 없습니다.

기계 번역

남은 언어는 없음 -Meta가 발표 한 NLLB 프로젝트는 200 개 언어 사이에서 번역 할 수있는 기계 번역 모델을 제공하여 저수정 언어에 더 액세스 할 수 있도록하는 것을 목표로합니다. 이 모델은 인간 번역 된 벤치 마크 인 Flores-200을 사용하여 평가되며 BLEU를 사용하는 최첨단 점수보다 44% 더 우수합니다.

논문 목록

@mutiann의 음성 순위 -이 사이트는 [csrankings]와 같은 인용으로 학술 논문을 평가합니다. 사용자 @Mutiann에 의해 구성됩니다.

어휘

오픈 소스 음성 기술에는 많은 용어와 약어가 있습니다. 이 섹션은 각각에 대한 설명을 제공합니다.

Cognitive arbitration : 음성 보조원이 온라인 또는 오프라인과 같은 상황 에 따라 어떤 서비스와 기술을 이용할 수 있는지 이해하기 위해 사용하는 프로세스.
CRF : 조건부 랜덤 필드. 컨텍스트를 고려할 수있는 통계 모델링 방법. 일부 신경 네트워크 기반 의도 정당 및 시맨틱 추출 소프트웨어에 사용됩니다.
LSTM : 긴 단기 메모리. 반복 신경 네트워크 내에서 오디오 또는 음성과 같은 데이터 시퀀스를 처리하는 데 도움이됩니다. LSTM은 다음에 올 가능성을 알기 위해 이전에 왔던 것을 기록합니다.
LVCSR : 대규모 어휘 연속 음성 인식. 음성 인식 도구에 a) 인식 자의 작품이 제한되거나 제한되지 않았다는 것을 나타내는 음성 인식 도구 - 예를 들어, 대규모 어휘의 메모리 또는 계산 요구 사항을 처리 할 수없는 내장 또는 저전력 하드웨어에 배치 된 경우, B) WALK WORK를 제어하는 웨이크 워드 또는 키워드 스팟터와 대조적 으로 작동합니다.