Whisper WebUI 다운로드 - Whisper WebUI 소스 코드 다운로드

Whisper WebUI

기타 소스코드

1.0.0

다운로드

Whisper-Webui

Whisper를위한 Gradio 기반 브라우저 인터페이스. 쉬운 자막 발전기로 사용할 수 있습니다!

Whisper Webui

공책

Colab에서 이것을 시도하고 싶다면 여기에서 할 수 있습니다!

특징

다음 사이에 사용할 Whisper 구현을 선택하십시오.
- Openai/Whisper
- Systran/Faster-Whisper (기본적으로 사용)
- vaibhavs10/미친 듯이 창고
다음을 포함하여 다양한 소스에서 자막을 생성합니다.
- 파일
- YouTube
- 마이크로폰
현재 지원되는 자막 형식 :
- srt
- Webvtt
- txt (타임 라인이없는 텍스트 파일 만)
텍스트 번역 연설
- 다른 언어에서 영어로. (이것은 Whisper의 엔드 투 엔드 연설-텍스트 번역 기능입니다)
텍스트로 텍스트 번역
- Facebook NLLB 모델을 사용하여 자막 파일을 번역하십시오
- Deepl API를 사용하여 자막 파일을 번역하십시오
Silero Vad를 사용한 사전 처리 오디오 입력.
UVR을 사용하여 BGM을 분리하기위한 사전 처리 오디오 입력.
Pyannote 모델을 사용한 스피커 투기로 후 처리.
- Pyannote 모델을 다운로드하려면 아래 페이지에서 포옹 페이스 토큰이 있어야하고 수동으로 용어를 수락해야합니다.
  1. https://huggingface.co/pyannote/speaker-diarization-3.1
  2. https://huggingface.co/pyannote/segmentation-3.0

설치 및 실행

Pinokio와 함께 달리기

이 앱은 Pinokio와 함께 실행할 수 있습니다.

Pinokio 소프트웨어를 설치하십시오.
소프트웨어를 열고 Whisper-Webui를 검색하여 설치하십시오.
Whisper-Webui를 시작하고 http://localhost:7860 에 연결하십시오.

Docker와 함께 달리기

Docker-Desktop을 설치하고 시작하십시오.
git 복제 저장소를 복제합니다

git clone https://github.com/jhj0517/Whisper-WebUI.git

이미지 만들기 (이미지는 약 7GB ~)

docker compose build

컨테이너를 실행하십시오

docker compose up

http://localhost:7860 사용하여 Webui에 연결하십시오

필요한 경우 docker-compose.yaml 업데이트하여 환경과 일치하십시오.

로컬로 달리십시오

전제 조건

이 webui를 실행하려면 git , 3.10 <= python <= 3.12 , FFmpeg 있어야합니다.
NVIDA GPU를 사용하지 않거나 12.4 이상의 다른 CUDA 버전을 사용하는 경우 requirements.txt 편집하여 환경과 일치합니다.

필요한 소프트웨어를 설치하려면 아래 링크를 따르십시오.

git : https://git-scm.com/downloads
Python : https://www.python.org/downloads/ 3.10 ~ 3.12 권장됩니다.
ffmpeg : https://ffmpeg.org/download.html
cuda : https://developer.nvidia.com/cuda-downloads

FFMPEG를 설치 한 후 FFmpeg/bin 폴더를 시스템 경로에 추가하십시오!

자동 설치

이 저장소를 복제합니다

git clone https://github.com/jhj0517/Whisper-WebUI.git

의존성을 설치하려면 install.bat 또는 install.sh 실행합니다. ( venv 디렉토리를 만들고 종속성을 설치합니다.)
start-webui.bat 또는 start-webui.sh 로 webui를 시작하십시오 (Venv를 활성화 한 후 python app.py 실행합니다)

또한 원하는 경우 명령 줄 인수로 프로젝트를 실행할 수 있습니다. Wiki를 참조하십시오.

VRAM 사용

이 프로젝트는 더 나은 VRAM 사용 및 전사 속도를 위해 기본적으로 더 빠른 whisper와 통합됩니다.

Faster-Whisper에 따르면, 최적화 된 Whisper 모델의 효율성은 다음과 같습니다.

구현	정도	빔 크기	시간	맥스. GPU 메모리	맥스. CPU 메모리
Openai/Whisper	FP16	5	4M30S	11325MB	9439MB
더 빠른-whisper	FP16	5	54S	4755MB	3244MB

더 빠른 위스퍼 이외의 구현을 사용하려면 --whisper_type arg 및 리포지토리 이름을 사용하십시오.
Cli Args에 대한 자세한 내용은 Wiki를 읽으십시오.

사용 가능한 모델

이것은 모델 용 Whisper의 원래 VRAM 사용 테이블입니다.

크기	매개 변수	영어 전용 모델	다국어 모델	필수 VRAM	상대 속도
매우 작은	39m	`tiny.en`	`tiny`	~ 1GB	~ 32x
베이스	74m	`base.en`	`base`	~ 1GB	~ 16x
작은	244m	`small.en`	`small`	~ 2GB	~ 6x
중간	769m	`medium.en`	`medium`	~ 5GB	~ 2x
크기가 큰	1550m	N/A	`large`	~ 10GB	1x

.en 모델은 영어 전용이며 멋진 것은 "큰"모델에서 Translate to English 옵션을 사용할 수 있다는 것입니다!

도대?

Deepl API 번역을 추가하십시오
NLLB 모델 변환을 추가하십시오
더 빠른 whisper와 통합
미친 듯이 창고와 통합
Whisperx와 통합 (스피커 발기 부품 만)
UVR로 배경 음악 분리 프리 프로세싱을 추가하십시오
빠른 API 스크립트를 추가하십시오
마이크의 실시간 전사를 지원합니다

번역

언어를 번역으로 변환하는 모든 PR. YAML은 대단히 감사하겠습니다!

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-02-26
크기 198.21KB
출처 Github

Whisper WebUI

Whisper-Webui

공책

특징

설치 및 실행

Pinokio와 함께 달리기

Docker와 함께 달리기

로컬로 달리십시오

전제 조건

자동 설치

VRAM 사용

사용 가능한 모델

도대?

번역

webui_bfm

JableTVDownload WebUI

flux webui

open webui

webui

stable diffusion webui

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf