Descargar dryad - Descargar el código fuente de dryad

dryad

Otro código fuente

1.0.0

Descargar

Dryad - habla con tu árbol

Búsqueda de código semántico fácil en cualquier repositorio de GitHub en ~ 1000 SLOC.

Mira la demostración de ejecución

dríada

Dryad está destinado a ser un proyecto de demostración útil y una plantilla de inicio para construir aplicaciones web de búsqueda semántica más sofisticadas.

Características:

Rastrea automáticamente los cambios en el repositorio de destino y mantiene el índice de búsqueda sincronizado con HEAD
Construido con convexo, OpenAi, Vite + React.
Fácil de leer, bifurcarse y modificar.
Reconfigurable sobre la marcha usando el tablero convexo

Ejecutando su propia Dryad (en su base de código favorita)

Primero, clona el repositorio y comience:

 $ git clone https://github.com/get-convex/dryad.git
$ npm i
$ npm run dev

Esto creará su implementación de backend convexa, que intentará comenzar a indexar el repositorio predeterminado (https://github.com/get-convex/convex-helpers). Luego, el frontend se iniciará, ejecutándose en el puerto habitual 5173 de Vite.

En otro terminal en este mismo repositorio, inicie el tablero convexo y vea los registros para seguir junto con la indexación de backend:

 $ npx convex dashboard

En el panel Logs , verá errores sobre las variables de entorno faltantes. ¡Tenemos un poco más configurado para hacer!

1. Establezca variables de entorno de implementación para OpenAI y GitHub

Opadai

Dryad usa OpenAI para resumir e incrustarse. Necesitará una cuenta de plataforma Operai y una clave API. Visite plataforma.openai.com para encargarse de eso.

️ Resumir e indexar incluso una base de código moderada consume una buena cantidad de créditos de Operai. You will almost certainly need a paid account!

Github

Los usos anónimos de la API de GitHub obtienen una velocidad limitada muy fácilmente. Por lo tanto, Dryad requiere que genere un token de acceso personal con su cuenta GitHub. Visite https://github.com/settings/tokens para generar un token para Dryad.

Establecer estas variables de entorno en su implementación convexa

Con su tecla API de OpenAI y el token de acceso GitHub en la mano, regrese al tablero de su implementación convexa. En el panel de navegación izquierdo, haga clic en "Configuración" y luego "Variables de entorno".

Nombra las dos variables de entorno secreto OPENAI_API_KEY y GITHUB_ACCESS_TOKEN , como así:

Variables de entorno del tablero

2. Personalice su configuración Dryad en la tabla `settings`

Si verifica la vista Logs en su tablero convexo, ¡Dryad ahora debería funcionar con éxito! Pero está indexando el repositorio predeterminado, get-convex/convex-helpers . Probablemente desee que indexe su propio código.

¡Albricias! Es fácil personalizar el comportamiento de Dryad. Dryad mantiene toda su configuración en una tabla settings en su base de datos convexa. Haga clic en la vista Data en el tablero y luego elija la tabla settings :

tabla de configuración

Haga doble clic en cualquier valor en el documento de configuración para editarlo, o haga clic en el botón Azul "Editar" para agregar campos faltantes al documento. Normalmente, no debería necesitar hacer nada para que sus cambios entren en vigencia. Pero si desea reindex de todos modos, haga clic en el corredor de la función Fn en el panel inferior derecho del tablero, y luego elija ejecutar syncState:reset desde el menú desplegable. No se requieren argumentos.

El esquema de esta tabla se puede encontrar en convex/schema.ts en este repositorio. Así es como se ve:

  // Various project settings you can tweak in the dashboard as we go.
  settings : defineTable ( {
    org : v . string ( ) ,
    repo : v . string ( ) ,
    branch : v . string ( ) ,
    extensions : v . array ( v . string ( ) ) ,
    exclusions : v . optional ( v . array ( v . string ( ) ) ) , // defaults to no exclusions
    byteLimit : v . optional ( v . number ( ) ) , // defaults to 24,000 bytes
    chatModel : v . optional ( v . string ( ) ) , // defaults to gpt-4
  } ) ,

Campos de configuración

org - El propietario de la organización del Repo GitHub Target para indexar. Para React (https://github.com/facebook/react), este es facebook .
Repo : el nombre del repositorio del Repo de GitHub de destino al índice. Para React (https://github.com/facebook/react), esto es react .
Rama : el nombre de la rama en el repositorio al índice. Esto suele ser 'principal' o 'maestro'.
Extensiones : una variedad de extensiones de archivos (como '.ts') que deben considerarse código y, por lo tanto, Dryad debe intentar indexar.
EXCLUSIONES : una variedad de rutas de archivos relativos con el repositorio que desea omitir explícitamente la indexación.
Bytelimit : no indexe archivos más grandes que este recuento de bytes. Los archivos grandes producirán más tokens que el modelo OpenAI puede procesar de una sola vez.
ChatModel : cuyo modelo de chat de OpenAI se utilizará para resumir los propósitos de los archivos de origen. Las opciones típicas son gpt-3.5-turbo , gpt-4 .

Cómo funciona Dryad

Tres cosas principales para cubrir:

Mantenerse al día con los cambios en el repositorio
Indexar archivos fuente
Buscando partidos semánticos

1. Mantenerse al día con los cambios de repositorio

Cada minuto, Dryad llama a un trabajo llamado repo:sync . Esta es una acción convexa que utiliza una tabla llamada syncState para recorrer entre dos estados:

Encuestando para un nuevo compromiso en la cabeza.
Indexando ese compromiso

Mientras se encuesta para una nueva confirmación, Dryad usa la API de GitHub (a través de OctoKit) para verificar el SHA de la rama de Repo + objetivo. Mientras el valor que regrese de GitHub sigue siendo el mismo que el último repo:sync indexado en syncState.commit .

Pero cuando se descubre una nueva confirmación, el campo syncState.commit se establece en el nuevo SHA, y el campo commitDone se establece en falso. Esto pone a Dryad en el modo "indexación que confirme".

Al indexar una confirmación, repo:sync usa primero la API "Trees" GitHub para obtener todo el árbol de archivos de esa confirmación, incluidas las suma de verificación de archivos asociadas con cada archivo.

Dryad luego camina todo este árbol, buscando archivos de código fuente (de acuerdo con la especificación de extensión de la tabla 'Configuración' '). Para cada archivo fuente, determina si la suma de verificación ha cambiado desde la última vez que se indexó el archivo. Si el archivo es nuevo o ha cambiado, se descarga del repositorio y se vuelve a indicar.

De lo contrario, el archivo es marcado de corriente, todavía válida en un nuevo confirmación.

Finalmente, después de que todos los archivos en el árbol se indexan correctamente, cualquier archivo que ya no se separe de este nuevo árbol de confirmación se elimine del índice.

Y con eso, commitDone está configurado en True y Dryad se remonta a las encuestas para una nueva compromiso.

2. Indexación de archivos fuente

La indexación de los archivos fuente implica tres pasos:

Pídale a ChatGPT que resume los "objetivos principales" del archivo fuente en formato JSON.
Tome cada uno de esos objetivos y solicite independientemente a Openai que genere un vector integrado para ello. Obtenga más información sobre los incrustaciones aquí.
Almacene cada objetivo y el vector asociado en la tabla fileGoals de Convex, con una referencia al registro de archivo de origen principal en files . El campo vectorial del objetivo es utilizar la indexación vectorial de Convex para admitir la búsqueda rápida desde la aplicación web.

3. Buscando partidos semánticos

Cuando alguien envía una consulta en la aplicación web, Dryad usa la misma API de incrustaciones de OpenAI para generar un vector, y luego usa el índice de vectores de Convex para encontrar archivos fuente con un objetivo semánticamente similar al término de búsqueda.

La búsqueda solo devuelve cada archivo de origen una vez, devolviendo el objetivo mejor clasificado como la razón principal de la inclusión de ese archivo en el conjunto de resultados.

Ejercicios: las próximas mejoras para Dryad

¡Dryad es bastante básico en este momento! Hay muchas direcciones en las que podría tomar el proyecto.

Los problemas del proyecto se han sembrado con una colección de posibles extensiones y mejoras en Dryad para que las ruedas se vuelvan más sofisticadas que podrían construirse a partir de Dryad.

¡Feliz piratería!

Comunidad

Únase a nuestra discordia para hablar sobre Dryad.

¿Qué es convexo?

Convex es una plataforma de backend alojada con una base de datos incorporada que le permite escribir el esquema de su base de datos y las funciones del servidor en TypeScript. Las consultas de la base de datos del lado del servidor almacenan automáticamente en caché y suscriben datos, alimentando un gancho useQuery en tiempo real en nuestro cliente React. También hay clientes para Python, Rust, Reactnative y Node, así como una API HTTP directa.

La base de datos admite documentos de estilo NoSQL con relaciones e índices personalizados (incluso en campos en objetos anidados).

Las funciones query y servidor mutation tienen acceso transaccional y de baja latencia a la base de datos y aprovechan nuestro tiempo de ejecución v8 con barandas de determinismo para proporcionar las garantías ácidas más fuertes en el mercado: consistencia inmediata, aislamiento en serie y resolución de conflictos automáticos a través de un control de concurrencia múltiple optimista (OCC / MVCC).

Las funciones del servidor action tienen acceso a API externas y habilitan otros efectos secundarios y no determinismo en nuestro tiempo de ejecución v8 optimizado o en un tiempo de ejecución node más flexible.

Las funciones pueden ejecutarse en segundo plano a través de los trabajos de programación y cron.

El desarrollo es en la nube primero, con recargas en caliente para la edición de funciones del servidor a través de la CLI. Hay una interfaz de usuario del tablero para navegar y editar datos, editar variables de entorno, ver registros, ejecutar funciones del servidor y más.

Existen características incorporadas para paginación reactiva, almacenamiento de archivos, búsqueda reactiva, puntos finales HTTPS (para webhooks), transmisión de importación/exportación y validación de datos de tiempo de ejecución para argumentos de funciones y datos de bases de datos.

Todo escala automáticamente y es gratuito para comenzar.

Expandir

Información adicional