Descarga pragYantra - Descargar el código fuente pragYantra

pragYantra

Otro código fuente

1.0.0

Descargar

Pragyantra

Pragyantra es un proyecto de software simple diseñado para simular un robot humanoide con funcionalidades de visión, audición, habla y memoria. Este proyecto tiene como objetivo crear una plataforma flexible para experimentar con inteligencia artificial e interacción humana-máquina. A partir de ahora, es más como un LLM, pero con capacidades extendidas, lo que permite ver, escuchar y participar en la comunicación verbal.

Arquitectura de Pragyantra

Características

Visión : Pragyantra simula las capacidades de visión, lo que le permite procesar subtítulos de imagen en vivo. Si bien actualmente no toma decisiones basadas en datos visuales, esta característica sienta las bases para el desarrollo futuro en esta área.
Audiencia : Pragyantra puede percibir los sonidos y responder en tiempo real en consecuencia.
Discurso : capaz de generar salida de voz simulada y comunicarse con los usuarios en lenguaje natural.
Memoria : tiene capacidades de memoria muy limitadas, lo que le permite almacenar y recordar información de interacciones recientes. Actualmente, estoy trabajando en la integración de una base de datos vectorial para mejorar la función de memoria, proporcionando más capacidades de memoria similares a los humanos, como recuerdos a corto y largo plazo, lo que le permite simular tareas de recuperación complejas.

Detalle técnico

Prioricé a Pragyantra para tener capacidades fuera de línea y al mismo tiempo integrar las funcionalidades en línea. Para lograr esto, todos los componentes del proyecto fueron diseñados para tener capacidades fuera de línea, con funcionalidades en línea disponibles como características opcionales. Si bien el uso del modo fuera de línea puede requerir un dispositivo más fuerte para una inferencia más rápida, el proyecto es completamente funcional y funciona admirablemente en estas condiciones.

La columna vertebral de Pragyantra consta de varios modelos de código abierto para tareas como texto a voz, habla a texto, texto a texto y conversión de imagen a texto. Estos modelos sirven como bloques de construcción en los que se construye la arquitectura de Pragyantra, con capacidades adicionales y concurrencia sin problemas para mejorar el rendimiento general y la experiencia del usuario.

Entonces ... ¿qué significa Pragyantra?

Pragyantra, derivado del sánscrito, es una fusión de dos palabras: "prag" que significa inteligente o sabio, y "yantra" que se refiere a la máquina o el robot. Entonces, elaborado, Pragyantra encarna el concepto de una máquina inteligente, lo que refleja el objetivo del proyecto de crear una plataforma flexible para experimentar con IA y la interacción humana-máquina.

Configuración e instalación

Para configurar el proyecto, siga estos pasos:

Clon el repositorio:

 git clone https://github.com/sri0606/pragyantra.git

Navegue al directorio del proyecto:
```
 cd pragyantra
```
Ejecute el script de configuración:
- Ejecute el script de configuración de Python:
```
 python setup.py
```
O
- En sistemas tipo UNIX (como Linux o MacOS):
```
 chmod +x setup.sh
./setup.sh
```
- En Windows, usando Git Bash:
```
 bash setup.sh
```

El script de configuración instalará las dependencias, descargará los modelos requeridos y creará los directorios necesarios.

Ejecutar el programa e interactuar

Para obtener ayuda, ejecute el siguiente comando:

 python main.py --help

Comandos de ejemplo:

Modo fuera de línea

python main.py --interpreter_model llama3_8B --offline_mode --speaker_model pyttsx3

Modo en línea

python main.py --interpreter_model llama3-70B-8192 --speaker_model pyttsx3

or

python main.py --interpreter_model mixtral-8x7b-32768 --speaker_model 11labs

Citas y reconocimientos

 @misc {nlp_connect_2022,
   author = { {NLP Connect} },
   title = { vit-gpt2-image-captioning (Revision 0e334c7) },
   year = 2022,
   url = { https://huggingface.co/nlpconnect/vit-gpt2-image-captioning },
   doi = { 10.57967/hf/0222 },
   publisher = { Hugging Face }
   }

@article{pratap2023mms,
   title={Scaling Speech Technology to 1,000+ Languages},
   author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
   journal={arXiv},
   year={2023}
   }

@misc{li2021trocr,
   title={TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models},
   author={Minghao Li and Tengchao Lv and Lei Cui and Yijuan Lu and Dinei Florencio and Cha Zhang and Zhoujun Li and Furu Wei},
   year={2021},
   eprint={2109.10282},
   archivePrefix={arXiv},
   primaryClass={cs.CL}
   }

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-26
tamaño 165.4KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo