pragYantra
1.0.0
Pragyantra是一個簡單的軟件項目,旨在模擬具有視覺,聽力,語音和記憶功能的人形機器人。該項目旨在創建一個靈活的平台,以實驗人工智能和人機互動。到目前為止,它更像是一個LLM,但是具有擴展的功能,使其能夠看到,聽到和參與口頭交流。

我優先考慮Pragyantra具有離線功能,同時還整合了在線功能。為了實現這一目標,該項目的所有組件都具有離線功能,並具有在線功能作為可選功能。雖然使用離線模式可能需要更強大的設備來更快地推斷,但該項目在這些條件下的功能完全可以正常運行。
Pragyantra的骨幹由各種開源模型組成,用於諸如文本到語音,語音到文本,文本到文本和圖像到文本轉換等任務。這些模型是Pragyantra構建結構的基礎,並具有其他功能和並發無縫集成,以增強整體性能和用戶體驗。
源自梵語的pragyantra是兩個單詞的融合:“布拉格”意為智能或明智,而“ yantra”指的是機器或機器人。因此,結合起來,Pragyantra體現了智能機器的概念,反映了項目創建一個靈活的平台,以實驗AI和人機相互作用。
要設置項目,請按照以下步驟:
克隆存儲庫:
git clone https://github.com/sri0606/pragyantra.git
導航到項目目錄:
cd pragyantra
運行設置腳本:
python setup.py
或者
chmod +x setup.sh
./setup.sh
bash setup.sh
設置腳本將安裝依賴項,下載所需的模型並創建必要的目錄。
為了幫助,運行以下命令:
python main.py --help
示例命令:
離線模式
python main.py --interpreter_model llama3_8B --offline_mode --speaker_model pyttsx3在線模式
python main.py --interpreter_model llama3-70B-8192 --speaker_model pyttsx3
or
python main.py --interpreter_model mixtral-8x7b-32768 --speaker_model 11labs @misc {nlp_connect_2022,
author = { {NLP Connect} },
title = { vit-gpt2-image-captioning (Revision 0e334c7) },
year = 2022,
url = { https://huggingface.co/nlpconnect/vit-gpt2-image-captioning },
doi = { 10.57967/hf/0222 },
publisher = { Hugging Face }
}
@article{pratap2023mms,
title={Scaling Speech Technology to 1,000+ Languages},
author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
journal={arXiv},
year={2023}
}
@misc{li2021trocr,
title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
year={2021},
eprint={2109.10282},
archivePrefix={arXiv},
primaryClass={cs.CL}
}