ECOUTE는 텍스트 상자의 사용자의 마이크 입력 (귀하) 및 사용자의 스피커 출력 (스피커) 모두에 실시간 전사를 제공하는 라이브 전사 도구입니다. 또한 OpenAI의 GPT-3.5를 사용하여 사용자가 대화의 실시간 전사를 기반으로 말할 수 있도록 제안 된 응답을 생성합니다.
ECOUTE는 라이브 전사를 제공하고 상황에 맞는 응답을 생성함으로써 사용자의 대화에 도움을 주도록 설계되었습니다. OpenAi의 GPT-3.5의 힘을 활용함으로써 ECOUTE는 커뮤니케이션을보다 효율적이고 즐겁게 만드는 것을 목표로합니다.
다음 단계를 따라 로컬 컴퓨터에서 ECOUTE를 설정하고 실행하십시오.
FFMPEG가 시스템에 설치되지 않은 경우 아래 단계를 따라 설치할 수 있습니다.
먼저 Windows의 패키지 관리자 인 Chocolate를 설치해야합니다. PowerShell을 관리자로 열고 다음 명령을 실행하십시오.
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
초콜릿이 설치되면 PowerShell에서 다음 명령을 실행하여 FFMPEG를 설치할 수 있습니다.
choco install ffmpeg
관리자 권한이있는 PowerShell 창에서 이러한 명령을 실행하는지 확인하십시오. 설치 중에 문제가 발생하면 공식 초콜릿 및 FFMPEG 웹 사이트를 방문하여 문제 해결을 할 수 있습니다.
저장소 복제 :
git clone https://github.com/SevaSk/ecoute
ecoute 폴더로 이동하십시오.
cd ecoute
필요한 패키지 설치 :
pip install -r requirements.txt
ECOUTE 디렉토리에서 keys.py 파일을 만들고 OpenAI API 키를 추가하십시오.
옵션 1 : 명령 프롬프트에서 명령을 활용할 수 있습니다. 다음 명령을 실행하여 "API 키"를 실제 OpenAI API 키로 바꾸도록하십시오.
python -c "with open('keys.py', 'w', encoding='utf-8') as f: f.write('OPENAI_API_KEY="API KEY"')"
옵션 2 : keys.py 파일을 수동으로 만들 수 있습니다. 선택의 텍스트 편집기를 열고 다음 내용을 입력하십시오.
OPENAI_API_KEY="API KEY"
"API 키"를 실제 OpenAI API 키로 바꾸십시오. 이 파일을 ECOute 디렉토리 내에서 keys.py로 저장하십시오.
기본 스크립트 실행 :
python main.py
대부분의 언어에서도 작동하는 더 좋고 빠른 버전을 위해 다음을 사용하십시오.
python main.py --api
시작되면 ECOute는 마이크 입력 및 스피커 출력을 실시간으로 전사하기 시작하여 대화에 따라 제안 된 응답을 생성합니다. 전사가 실시간이되기 전에 시스템이 예열되는 데 몇 초가 걸릴 수 있습니다.
-api 플래그는 전사에 Whisper API를 사용합니다. 이것은 전사 속도와 정확도를 크게 향상 시키며 대부분의 언어 (깃발이없는 영어가 아닌)에서 작동합니다. 향후 릴리스에서 기본 옵션이 될 것으로 예상됩니다. 그러나 Whisper API를 사용하면 로컬 모델을 사용하는 것보다 더 많은 OpenAI 크레딧을 소비합니다. 이 비용 증가는 Whisper API가 제공하는 고급 기능 및 기능에 기인합니다. 추가 비용에도 불구하고 속도 및 전사 정확도의 상당한 개선으로 인해 사용 사례에 대한 가치가있는 투자가 될 수 있습니다.
ECOUTE는 실시간 전사 및 반응 제안을 제공하지만 다음을 알고 있어야 할 기능에 몇 가지 알려진 한계가 있습니다.
기본 마이크 및 스피커 : ECOUTE는 현재 시스템에서 설정된 기본 마이크 및 스피커 만 청취하도록 구성되어 있습니다. 다른 장치 나 시스템에서 사운드를 감지하지 않습니다. 다른 마이크 또는 스피커를 사용하려면 시스템 설정에서 기본 장치로 설정해야합니다.
Whisper Model : -api 플래그를 사용하지 않으면 자원 소비가 낮고 빠른 응답 시간으로 인해 Whisper ASR 모델의 '작은'버전을 사용합니다. 그러나이 모델은 악센트 또는 드문 단어를 포함하여 특정 유형의 음성을 전사하는 데 큰 모델만큼 정확하지 않을 수 있습니다.
언어 : -API 플래그를 사용하지 않는 경우 ECoute에 사용 된 Whisper 모델은 영어로 설정됩니다. 결과적으로 영어가 아닌 언어 나 방언을 정확하게 기록하지 못할 수 있습니다. 우리는 향후 버전의 프로그램에 다중 언어 지원을 추가하기 위해 적극적으로 노력하고 있습니다.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.
기부금을 환영합니다! ECOUTE를 개선하기 위해 문제를 열거 나 풀 요청을 제출하십시오.