pragYantra
1.0.0
Pragyantra是一个简单的软件项目,旨在模拟具有视觉,听力,语音和记忆功能的人形机器人。该项目旨在创建一个灵活的平台,以实验人工智能和人机互动。到目前为止,它更像是一个LLM,但是具有扩展的功能,使其能够看到,听到和参与口头交流。

我优先考虑Pragyantra具有离线功能,同时还整合了在线功能。为了实现这一目标,该项目的所有组件都具有离线功能,并具有在线功能作为可选功能。虽然使用离线模式可能需要更强大的设备来更快地推断,但该项目在这些条件下的功能完全可以正常运行。
Pragyantra的骨干由各种开源模型组成,用于诸如文本到语音,语音到文本,文本到文本和图像到文本转换等任务。这些模型是Pragyantra构建结构的基础,并具有其他功能和并发无缝集成,以增强整体性能和用户体验。
源自梵语的pragyantra是两个单词的融合:“布拉格”意为智能或明智,而“ yantra”指的是机器或机器人。因此,结合起来,Pragyantra体现了智能机器的概念,反映了项目创建一个灵活的平台,以实验AI和人机相互作用。
要设置项目,请按照以下步骤:
克隆存储库:
git clone https://github.com/sri0606/pragyantra.git
导航到项目目录:
cd pragyantra
运行设置脚本:
python setup.py
或者
chmod +x setup.sh
./setup.sh
bash setup.sh
设置脚本将安装依赖项,下载所需的模型并创建必要的目录。
为了帮助,运行以下命令:
python main.py --help
示例命令:
离线模式
python main.py --interpreter_model llama3_8B --offline_mode --speaker_model pyttsx3在线模式
python main.py --interpreter_model llama3-70B-8192 --speaker_model pyttsx3
or
python main.py --interpreter_model mixtral-8x7b-32768 --speaker_model 11labs @misc {nlp_connect_2022,
author = { {NLP Connect} },
title = { vit-gpt2-image-captioning (Revision 0e334c7) },
year = 2022,
url = { https://huggingface.co/nlpconnect/vit-gpt2-image-captioning },
doi = { 10.57967/hf/0222 },
publisher = { Hugging Face }
}
@article{pratap2023mms,
title={Scaling Speech Technology to 1,000+ Languages},
author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
journal={arXiv},
year={2023}
}
@misc{li2021trocr,
title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
year={2021},
eprint={2109.10282},
archivePrefix={arXiv},
primaryClass={cs.CL}
}