Téléchargement pragYantra - Téléchargement du code source pragYantra

pragYantra

Autre code source

1.0.0

Télécharger

Pragyantra

Pragyantra est un projet logiciel simple conçu pour simuler un robot humanoïde avec vision, audition, parole et fonctionnalités de la mémoire. Ce projet vise à créer une plate-forme flexible pour expérimenter l'intelligence artificielle et l'interaction humaine-machine. Pour l'instant, cela ressemble plus à un LLM, mais avec des capacités étendues, en lui permettant de voir, d'entendre et de s'engager dans une communication verbale.

Architecture de Pragyantra

Caractéristiques

Vision : Pragyantra simule les capacités de vision, ce qui lui permet de traiter des légendes d'image en direct. Bien qu'il ne prenne actuellement pas de décisions basées sur des données visuelles, cette fonctionnalité jette les bases d'un développement futur dans ce domaine.
Entendre : Pragyantra peut percevoir les sons et répondre en temps réel en conséquence.
Discours : capable de générer une sortie de discours simulée et de communiquer avec les utilisateurs en langage naturel.
Mémoire : Il a des capacités de mémoire très limitées, ce qui lui permet de stocker et de rappeler les informations des interactions récentes. Actuellement, je travaille à l'intégration d'une base de données vectorielle pour améliorer la fonction de mémoire, fournissant plus de capacités de mémoire de type humain, comme des souvenirs à court et à long terme, lui permettant de simuler des tâches de rappel complexes.

Détails techniques

J'ai priorisé Pragyantra pour avoir des capacités hors ligne tout en intégrant également les fonctionnalités en ligne. Pour y parvenir, toutes les composantes du projet ont été conçues pour avoir des capacités hors ligne, avec des fonctionnalités en ligne disponibles en fonctionnalités facultatives. Bien que l'utilisation du mode hors ligne puisse nécessiter un appareil plus fort pour une inférence plus rapide, le projet est entièrement fonctionnel et fonctionne admirablement dans ces conditions.

L'épine dorsale de Pragyantra se compose de divers modèles open source pour des tâches telles que la conversion de texte à la parole, de la parole en texte, du texte-texte et de l'image-texte. Ces modèles servent de blocs de construction sur lesquels l'architecture de Pragyantra est construite, avec des capacités supplémentaires et une concurrence parfaitement intégrée pour améliorer les performances globales et l'expérience utilisateur.

Alors ... que signifie Pragyantra?

Pragyantra, dérivé du sanskrit, est une fusion de deux mots: "prag" signifiant intelligent ou sage, et "yantra" se référant à la machine ou au robot. Ainsi, assemblé, Pragyantra incarne le concept d'une machine intelligente, reflétant l'objectif du projet de créer une plate-forme flexible pour expérimenter l'interaction IA et humaine-machine.

Configuration et installation

Pour configurer le projet, suivez ces étapes:

Clone le référentiel:

 git clone https://github.com/sri0606/pragyantra.git

Accédez au répertoire du projet:
```
 cd pragyantra
```
Exécutez le script de configuration:
- Exécutez le script de configuration Python:
```
 python setup.py
```
OU
- Sur les systèmes de type UNIX (comme Linux ou MacOS):
```
 chmod +x setup.sh
./setup.sh
```
- Sous Windows, en utilisant Git Bash:
```
 bash setup.sh
```

Le script de configuration installera les dépendances, téléchargera les modèles requis et créera les répertoires nécessaires.

Exécuter le programme et interagir

Pour obtenir de l'aide, exécutez la commande suivante:

 python main.py --help

Exemples de commandes:

Mode hors ligne

python main.py --interpreter_model llama3_8B --offline_mode --speaker_model pyttsx3

Mode en ligne

python main.py --interpreter_model llama3-70B-8192 --speaker_model pyttsx3

or

python main.py --interpreter_model mixtral-8x7b-32768 --speaker_model 11labs

Citations et remerciements

 @misc {nlp_connect_2022,
   author = { {NLP Connect} },
   title = { vit-gpt2-image-captioning (Revision 0e334c7) },
   year = 2022,
   url = { https://huggingface.co/nlpconnect/vit-gpt2-image-captioning },
   doi = { 10.57967/hf/0222 },
   publisher = { Hugging Face }
   }

@article{pratap2023mms,
   title={Scaling Speech Technology to 1,000+ Languages},
   author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
   journal={arXiv},
   year={2023}
   }

@misc{li2021trocr,
   title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
   author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
   year={2021},
   eprint={2109.10282},
   archivePrefix={arXiv},
   primaryClass={cs.CL}
   }

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-26
taille 165.4KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout