pragYantra 다운로드 pragYantra 소스 코드 다운로드

pragYantra

기타 소스코드

1.0.0

다운로드

Pragyantra

Pragyantra는 비전, 청각, 언어 및 기억 기능으로 휴머노이드 로봇을 시뮬레이션하도록 설계된 간단한 소프트웨어 프로젝트입니다. 이 프로젝트는 인공 지능과 인간-기계 상호 작용을 실험 할 수있는 유연한 플랫폼을 만드는 것을 목표로합니다. 현재로서는 LLM과 비슷하지만 확장 된 기능을 갖추어 구두 의사 소통을보고 듣고 참여할 수 있습니다.

Pragyantra의 건축

특징

비전 : Pragyantra는 비전 기능을 시뮬레이션하여 라이브 이미지 캡션을 처리 할 수 있습니다. 현재 시각적 데이터를 기반으로 결정을 내리지는 않지만이 기능은이 분야의 향후 개발을위한 기초를 제시합니다.
청각 : Pragyantra는 소리를 인식하고 그에 따라 실시간으로 반응 할 수 있습니다.
음성 : 시뮬레이션 된 음성 출력을 생성하고 자연어로 사용자와 통신 할 수 있습니다.
메모리 : 메모리 기능이 매우 제한되어있어 최근 상호 작용에서 정보를 저장하고 리콜 할 수 있습니다. 현재 벡터 데이터베이스를 통합하여 메모리 기능을 향상시키고 단기 및 장기 메모리와 같은 인간과 같은 메모리 기능을 제공하여 복잡한 리콜 작업을 시뮬레이션 할 수 있습니다.

기술적 인 세부 사항

Pragyantra는 온라인 기능을 통합하면서 오프라인 기능을 갖도록 우선 순위를 정했습니다. 이를 달성하기 위해 프로젝트의 모든 구성 요소는 온라인 기능을 선택적 기능으로 사용할 수 있도록 오프라인 기능을 갖도록 설계되었습니다. 오프라인 모드를 사용하려면 더 빠른 추론을 위해 더 강력한 장치가 필요할 수 있지만, 프로젝트는 완전히 작동하며 이러한 조건에서 훌륭하게 수행됩니다.

Pragyantra의 중추는 텍스트 음성 연설, 음성-텍스트, 텍스트-텍스트 및 이미지-텍스트 변환과 같은 작업에 대한 다양한 오픈 소스 모델로 구성됩니다. 이 모델은 Pragyantra의 아키텍처가 구축되는 빌딩 블록 역할을하며 추가 기능과 동시성은 전반적인 성능 및 사용자 경험을 향상시킵니다.

그래서 ... Pragyantra는 무엇을 의미합니까?

산스크리트어에서 파생 된 Pragyantra는 두 단어의 융합입니다. "Prag"는 지능적이거나 현명한 것을 의미하며 기계 나 로봇을 언급하는 "Yantra". 따라서 Pragyantra는 지능형 기계의 개념을 구현하여 AI 및 인간-기계 상호 작용을 실험 할 수있는 유연한 플랫폼을 만드는 프로젝트의 목표를 반영합니다.

설정 및 설치

프로젝트를 설정하려면 다음 단계를 따르십시오.

저장소 복제 :

 git clone https://github.com/sri0606/pragyantra.git

프로젝트 디렉토리로 이동하십시오.
```
 cd pragyantra
```
설정 스크립트 실행 :
- 파이썬 설정 스크립트 실행 :
```
 python setup.py
```
또는
- 유닉스와 같은 시스템 (Linux 또는 MacOS와 같은)에서 :
```
 chmod +x setup.sh
./setup.sh
```
- Windows에서 Git Bash 사용 :
```
 bash setup.sh
```

설정 스크립트는 종속성을 설치하고 필요한 모델을 다운로드하며 필요한 디렉토리를 만듭니다.

프로그램을 실행하고 상호 작용하십시오

도움을 받으려면 다음 명령을 실행하십시오.

 python main.py --help

예제 명령 :

오프라인 모드

python main.py --interpreter_model llama3_8B --offline_mode --speaker_model pyttsx3

온라인 모드

python main.py --interpreter_model llama3-70B-8192 --speaker_model pyttsx3

or

python main.py --interpreter_model mixtral-8x7b-32768 --speaker_model 11labs

인용 및 인정

 @misc {nlp_connect_2022,
   author = { {NLP Connect} },
   title = { vit-gpt2-image-captioning (Revision 0e334c7) },
   year = 2022,
   url = { https://huggingface.co/nlpconnect/vit-gpt2-image-captioning },
   doi = { 10.57967/hf/0222 },
   publisher = { Hugging Face }
   }

@article{pratap2023mms,
   title={Scaling Speech Technology to 1,000+ Languages},
   author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
   journal={arXiv},
   year={2023}
   }

@misc{li2021trocr,
   title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
   author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
   year={2021},
   eprint={2109.10282},
   archivePrefix={arXiv},
   primaryClass={cs.CL}
   }

확장하다

추가 정보