mimic recording studio Download -Mimic mimic recording studio 소스 코드 다운로드

mimic recording studio

AI 소스 코드

v 0.1.1

다운로드

모방 녹음 스튜디오

모방 녹음 스튜디오
- 소프트웨어 빠른 시작
  - Windows는 자체 주최 빠른 시작입니다
  - Linux/Mac 자체 주최 빠른 시작
    - 종속성을 설치하십시오
    - 빌드 및 실행
  - 수동 설치, 빌드 및 시작
    - 백엔드
      - 의존성
      - 빌드 및 실행
    - 프론트 엔드
      - 의존성
      - 빌드 및 실행
  - 곧 올 것입니다!
- 데이터
  - 오디오 녹음
    - WAV 파일
    - {uuid} -metadata.txt
  - 신체
    - 다른 언어로 된 Corpora
- 기술
  - 프론트 엔드
    - 기능
  - 백엔드
    - 기능
  - 도커
녹음 팁
고급의
- 쿼리 데이터베이스 구조
  - 테이블 "오디오 모드"
  - "usermodel"테이블
- 레코더 UUID를 수정하십시오
훈련을 위해 Mycroft에 녹음을 제공합니다
기여
지원 및 지원을받을 수있는 곳

MyCroft 오픈 소스 Mimic Technologies는 서면 텍스트를 작성하여 음성 오디오로 변환하는 텍스트 음성 엔진입니다. 이 기술의 최신 기술 인 Mimic 2는 기계 학습 기술을 사용하여 특정 언어를 말할 수있는 모델을 만들어 훈련 된 목소리처럼 들립니다.

MIMIC Recording Studio는 개인의 교육 데이터 모음을 단순화하며, 각각은 모방의 독특한 음성을 생성하는 데 사용할 수 있습니다.

소프트웨어 빠른 시작

Windows는 자체 주최 빠른 시작입니다

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
start-windows.bat

Linux/Mac 자체 주최 빠른 시작

종속성을 설치하십시오

Docker (Community Edition은 괜찮습니다)
Docker Compose

왜 Docker? 이 크로스 플랫폼을 쉽게 설정하고 실행할 수 있도록합니다.

빌드 및 실행

git clone https://github.com/MycroftAI/mimic-recording-studio.git
cd mimic-recording-studio
Docker sudo docker-compose up docker-compose up up build and run
또는 별도로 구축하고 실행할 수 있습니다. docker-compose build 한 다음 docker-compose up
브라우저에서 http://localhost:3000 으로 이동하십시오

참고 : docker-compose up 의 첫 번째 실행은 Docker 컨테이너를 구축하므로 시간이 걸립니다. 이후 docker-compose up 의 후속 실행은 더 빨리 부팅해야합니다.

수동 설치, 빌드 및 시작

백엔드

의존성

파이썬 3.5 +
ffmpeg

빌드 및 실행

cd backend/
pip install -r requirements.txt
python run.py

프론트 엔드

의존성

노드 & npm
React-App을 작성하십시오
원사 - 더 빠른 빌드, 설치 및 시작을위한 선택 사항

빌드 및 실행

cd frontend/
npm install , 또는 yarn install
npm start , 대안 적으로 yarn start

곧 올 것입니다!

온라인, http://mimic.mycroft.ai 설정이 필요한 호스팅 버전.

데이터

오디오 녹음

WAV 파일

오디오는 backend/audio_file/{uuid}/ 디렉토리에 Wav 파일로 저장됩니다. 백엔드는 FFMPEG를 사용하여 모든 WAV 파일에 대한 시작 및 끝 침묵을 자동으로 다듬습니다.

{uuid} -metadata.txt

메타 데이터는 또한 backend/audio_file/{uuid}/ 에 저장됩니다. 이 파일은 wav 파일 이름을 말하는 문구에 매핑합니다. 이것은 wav 파일과 함께 Mimic 2 교육을 시작하는 데 필요한 것입니다.

신체

현재, 우리는 영어 코퍼스 인 english_corpus.csv 를 사용하여 backend/prompt/ 에서 찾을 수 있습니다. 자신의 코퍼스를 사용하려면 다음 단계를 따르십시오.

Delimiter와 함께 탭 ( t )을 사용하여 english_corpus.csv 와 동일한 형식으로 CSV 파일을 만듭니다.
코퍼스에 빈 줄이 없는지 확인하십시오.
backend/prompt 디렉토리에 코퍼스를 추가하십시오.
docker-compose.yml 의 CORPUS 환경 변수를 코퍼스 이름으로 변경하십시오.

다른 언어로 된 Corpora

영어 이외의 언어로 코퍼스를 개발하려면 Mimic Recording Studio를 사용하여 추가 언어로 TTS 목소리에 대한 음성 녹음을 제작할 수 있습니다. 영어 이외의 언어로 코퍼스를 구축하는 경우 다음과 같은 문구를 선택하는 것이 좋습니다.

대상 언어로 자연스럽고 일상적인 연설에서 발생합니다
다양한 문자열 길이가 있습니다
다양한 음소 (기본 사운드)를 덮으십시오.

중요 : 현재로서는 새 코퍼스를 사용하려면 sqlite 데이터베이스를 재설정해야합니다. 다른 코퍼스에서 녹음하고 해당 데이터를 저장하려면 backend/db/ 에 찾은 sqlite DB를 다른 이름으로 바꿀 수 있습니다. 백엔드는 mimicstudio.db 가 없음을 감지하고 새로운 것을 만들 것입니다. 새로운 코퍼스에 대한 데이터를 계속 기록 할 수 있습니다.

기술

프론트 엔드

Web UI는 JavaScript를 사용하여 구축되었으며 스캐 폴딩 도구로 React 및 React-React-App을 작성합니다. Create-React-App을 사용하는 방법에 대한 자세한 내용은 Cra.md를 참조하십시오.

기능

오디오를 녹음하고 재생합니다
시청각을 생성합니다
메트릭을 계산하고 표시합니다

백엔드

웹 서비스는 Python, Flask를 백엔드 프레임 워크로, Gunicorn을 HTTP 웹 서버로, SQLITE를 데이터베이스로 사용하여 구축됩니다.

기능

프로세스 오디오
코퍼스 및 메트릭 데이터를 제공합니다
데이터베이스의 레코드 정보
파일 시스템에 데이터를 기록합니다

도커

Docker는 두 응용 프로그램을 모두 컨테이너화하는 데 사용됩니다. 기본적으로 프론트 엔드는 네트워크 포트 3000 사용하고 백엔드는 네트워킹 포트 5000 사용합니다. docker-compose.yml 파일에서이를 구성 할 수 있습니다.

참고 : docker-registry 실행하는 경우 포트 5000 에서 기본적으로 실행되므로 사용하는 포트를 변경해야합니다.

녹음 팁

목소리를 만들려면 달성 할 수 있지만 상당한 노력이 필요합니다. 개인은 15,000-20,000 문구를 기록해야합니다. 최상의 모방 음성을 얻으려면 녹음이 깨끗하고 일관성이 있어야합니다. 이를 위해 다음과 같은 권장 사항을 따르십시오.

소음이 감동적 인 재료로 조용한 환경에서 기록하십시오. 귀가 외부 소음을들을 수 있다면 마이크도 마실 수 있습니다. 최상의 결과를 얻으려면 환기를 통과하는 에어컨 소리조차도 피해야합니다. 맨 벽은 미묘한 에코와 잔향을 만듭니다. 사운드 댐핑 부스는 이상적이지만 옷장에 어쿠스틱 폼과 같은 부드러운 재료를 사용하여 수제 녹음 스튜디오를 만들 수도 있습니다. 이불과 매트리스도 효과적으로 사용할 수 있습니다!
일관된 볼륨과 속도로 말하십시오. 문구를 돌진하면 품질이 낮은 음성이 더 낮아집니다.
품질 마이크를 사용하십시오. 일관된 결과를 얻으려면 헤드셋 마이크를 권장하여 입이 항상 마이크와 같은 거리에 있습니다.
보컬 피로를 피하십시오. 30 분마다 휴식을 취하면서 하루에 최대 4 시간을 기록하십시오.
데이터 손실을 피하기 위해 정기적으로 Mimic Recording Studio 디렉토리를 백업하십시오.

고급의

쿼리 데이터베이스 구조

Mimic Recording-Studio는 모든 레코드를/백엔드/DB/아래에있는 SQLITE 데이터베이스 파일로 작성합니다. 이것은 dbeaver와 같은 데이터베이스 도구를 사용하여 열 수 있습니다.

데이터베이스에는 두 개의 테이블이 포함되어 있습니다.

database_table_overview

테이블 "오디오 모드"

이 테이블에는 모든 녹음이 지속됩니다

타임 스탬프 녹음 (create_date)
스피커의 UUID (파일 시스템 경로와 일치/백엔드/Audio_files/ID와 일치)
파일 시스템의 wav filename (audio_id)
기록 된 문구의 텍스트 (문구)

데이터베이스를 사용하여 녹음을 쿼리 할 수 있습니다.

다음은 몇 가지 예입니다.

 -- List all recordings
SELECT * FROM audiomodel;

-- Lists recordings from january 2020 order by phrase
SELECT * FROM audiomodel WHERE created_date BETWEEN ' 2020-01-01 ' AND ' 2020-01-31 ' ORDER BY prompt;

-- Lists number of recordings per day
SELECT DATE (created_date), COUNT ( * ) AS RecordingsPerDay
FROM audiomodel
GROUP BY DATE (created_date )
ORDER BY DATE (created_date)

-- Shows average text length of recordings
SELECT AVG (LENGTH(prompt)) AS avgLength FROM audiomodel

SQLITE 데이터베이스를 쿼리하는 것이 유용 할 수있는 방법에는 여러 가지가 있습니다. 예를 들어, 특정 시간 범위에서 녹음을 찾으면 나쁜 환경에서 만들어진 녹음을 제거하는 데 도움이 될 수 있습니다.

"usermodel"테이블

동일한 SQLite 데이터베이스 파일을 사용하여 하나 이상의 스피커가 MIMIC Recording-Studio를 사용할 수 있습니다.

이 테이블은 스피커 당 다음과 같은 정보를 제공합니다.

스피커의 고유 식별자 (UUID)
스피커 이름 (user_name)
최신 기록 된 코퍼스 (Prompt_num)
총 녹음 시간 (Total_Time_Spoken)
얼마나 많은 숯이 기록되었는지 (Len_Char_Spoken)

이 값은 메트릭을 계산하는 데 사용됩니다. 예를 들어, 말하기 속도는 기록 된 문구가 이전 기록에 비해 너무 빠르거나 느립니다.

쿼리 테이블 "UUID를 포함한 스피커 목록 및 그에 대한 일부 기록 통계를 얻으려면"usermodel ".

 SELECT user_name AS [name], uuid FROM usermodel;

database_table_usermodel

레코더 UUID를 수정하십시오

문구를 녹음하는 데 사용되는 브라우저는 SQLITE 및 FILESYSTEM과 동기를 유지하기 위해 사용자의 uuid 와 name 유지합니다.

문제가 발생하고 브라우저가 완화/변경되면 Mimic Recording-Studio에 대한 UUID 매핑이 느슨해 지거나 변경되면 이전 녹음 세션을 계속하기가 어려울 수 있습니다. 그런 다음 브라우저의 LocalStorage에서 다음 두 가지 속성을 업데이트하십시오.

UUID (쿼리 테이블 "usermodel"또는 파일 시스템 경로 아래/백엔드/audio_files/)
이름 (쿼리 테이블 "usermodel")

브라우저에서 Mimic Recording-Studio를 열고 웹 개발자 옵션, LocalStorage 및 이름 및 UUID를 원래 값으로 이동하십시오.

Browser_local_storage

그 후에는 더 이상의 문제없이 이전 녹음 세션을 계속할 수 있어야합니다.

훈련을 위해 Mycroft에 녹음을 제공합니다

텍스트 음성 연설 응용 프로그램에 사용하기 위해 Mycroft에 귀하의 음성 기부를 환영합니다. 귀하의 음성 녹음을 제공하려면 Creative Commons CC0 Public Domain 라이센스에 따라 당사에게 라이센스를 부여하여 TTS Voices에서 활용하여 파생 작품입니다. 음성 녹음을 기부 할 준비가되면 [email protected]로 이메일을 보내주십시오.

기여

PR은 기꺼이 받아 들여졌습니다!

지원 및 지원을받을 수있는 곳

Mimic Recording Studio에서 도움과 지원을받을 수 있습니다.

MyCroft 포럼
MyCroft 채팅에서

확장하다

추가 정보

버전 v 0.1.1
유형 AI 소스 코드
업데이트 시간 2025-08-20
크기 3.42MB
출처 Github