Téléchargement revery - téléchargement de code source de revery

revery

Autre code source

1.0.0

Télécharger

Revertir?

Revery est un moteur de recherche sémantique qui fonctionne sur mon index de recherche Monocle. Bien que Revery me permette de rechercher la même base de données de dizaines de milliers de notes, de signets, d'entrées de journal, de tweets, de contacts et de messages de blog en tant que monocle, la reveryme n'est pas sur la recherche basée sur les mots clés que Monocle effectue, mais plutôt sur la recherche sémantique - trouver des résultats topiquement similaires à une page Web ou une requête donnée, même si elles ne partagent pas les mêmes mots. Il est disponible en tant qu'extension de navigateur qui peut faire surface des résultats pertinents à la page actuelle, ainsi qu'une application Web plus standard ressemblant à la page de recherche de Monocle.

Extension du navigateur de Revery et interface Web en cours d'exécution sur un iPad et un ordinateur portable

Contrairement à la plupart de mes projets parallèles, en raison de la taille des données et de la quantité de travail de calcul que la retraite exige, son backend est écrit en Go. Les deux clients - l'application Web et l'extension du navigateur - sont construits avec Torus.

Bien que cela fonctionne assez bien pour que je l'utilise tous les jours, Revery est plus un prototype de preuve de concept qu'un produit fini. Je voulais démontrer qu'un outil comme celui-ci pourrait être conçu pour un usage personnel en plus d'outils de productivité personnelle comme les notes et les signets, et découvrir ce que cela ressentirait de parcourir le Web et d'écrire avec un tel outil.

Caractéristiques

Revery, à la base, n'est qu'une seule API. L'API prend un texte et rampe à travers ma collection de documents personnels et de notes pour trouver les meilleurs qui semblent le plus topiquement liés au texte donné. Pour rendre cela intéressant à utiliser, je l'ai terminé dans deux interfaces différentes: une extension de navigateur et une interface de recherche Web plus standard.

Extension du navigateur

L'extension du navigateur de revery vit à l'intérieur ./extension dans ce référentiel, et fait exactement une chose: lorsque j'appuie Ctrl-Shift-L sur n'importe quelle page Web que je regarde, il grattera le corps principal du texte de la page (ou une partie sélectionnée, si je lis quelque chose) et parlera à l'API de réouverture pour trouver les documents qui sont les plus liés à ce que je lis.

Extension du navigateur de Revery montrant une liste de résultats connexes

Lorsque Monocle, avec son algorithme de recherche basé sur des mots clés, est bon pour le souvenir, j'ai trouvé l'extension de reveryme idéale pour les explorations sur un sujet spécifique . Si je lis sur le traitement du langage naturel, par exemple, je peux frapper quelques frappes pour élever d'autres articles que j'ai lus, ou des notes que j'ai prises dans le passé, que je peux référencer mentalement en lisant et en découvrant de nouvelles idées dans la PNL.

Nous apprenons le mieux de nouvelles idées lorsque nous pouvons trouver des points de référence existants dans notre mémoire sur lesquels nous pouvons joindre de nouvelles informations. L'extension de Revery automatise et accélère en partie cette tâche. Par exemple, tout en lisant un article sur la position culturelle et économique unique de la Corée du Sud dans le monde, Revery a fait surface quelques newsletters et articles connexes d'auteurs et de sources complètement différents sur la culture pop coréenne et sa baisse de la population, ce qui m'a aidé à encadrer ce que je lisais dans un contexte beaucoup plus large et bien informé.

Interface Web

L'interface de recherche Web, pour moi, est un peu secondaire à l'extension. Il existe principalement comme une démonstration de la technologie sous-jacente de Revery, et également, comme un moyen pour moi d'utiliser la réouverture lorsque l'extension n'est pas disponible (comme sur un navigateur mobile).

Interface Web de Revery montrant une liste de résultats

La barre de recherche dans l'interface Web peut prendre une URL ou une phrase clé. Étant donné une URL (comme dans la capture d'écran ci-dessus), Revery téléchargera et lira la page Web elle-même pour trouver des documents connexes dans l'index de recherche. Compte tenu d'une phrase clé, Revery essaiera de suggérer des documents qui contiennent des mots similaires et parlent de sujets similaires.

Ce type d'interface de recherche (par opposition à l'extension) est utile pour commencer à penser à quelque chose de nouveau, où je peux taper une liste de mots connexes dans la zone de recherche et obtenir immédiatement une liste d'idées et de documents que je connais qui sont liés, sans avoir à façonner les requêtes de recherche spécifiques et bien conçues que les moteurs de recherche basés sur des mots clés comme Monocle ont besoin.

Comment ça marche

Comme mentionné ci-dessus, le noyau de Revery est un seul point de terminaison de l'API qui adopte un document et renvoie une liste de la plupart des documents connexes à partir de mon index de recherche. Ce qui rend Revery Special, c'est que cette API effectue une recherche sémantique , pas simplement une analyse pour les mots clés correspondants. Cela signifie que les résultats supérieurs peuvent même ne pas contenir les mêmes mots que la requête, tant que son contenu est topiquement pertinent.

Ce type de recherche sémantique est activé par un algorithme de recherche qui utilise la similitude du cosinus avec les incorporations de documents de cluster des documents indexés. Si cela vous semble être un tas de mots aléatoires (comme cela m'a fait quand j'ai commencé ce projet), permettez-moi de le décomposer:

Tout d'abord, nous devrons comprendre les intégres de mots . Un mot incorporé est un moyen de cartographier un vocabulaire de mots en langage naturel à certains points de l'espace (généralement un espace mathématique de haute dimension), de sorte que les mots qui sont similaires sont proches les uns des autres dans cet espace. Par exemple, le mot «science» dans un mot incorporation serait très proche du mot «scientifique», raisonnablement proche de la «recherche», et probablement très loin du «cirque». Lorsque nous parlons de «distance» dans le contexte des incorporations de mots, nous utilisons généralement la similitude en cosinus plutôt que sur la distance euclidienne, pour des raisons empiriques et théoriques que je ne couvrirai pas ici.

Bien que le concept d'incorporation de mots ne soit pas très nouveau, il existe toujours des recherches actives produisant de nouvelles méthodes pour générer des intégres de mots de plus en plus précis et utiles dans le même corpus de données. Mon déploiement personnel de Revery utilise l'ensemble de données d'intégration de mots sous licence Creative Commons produit par l'outil FastText de Facebook, en particulier un ensemble de données de 50 000 mots avec 300 dimensions formées sur le corpus Crawl commun.

Les incorporations de mots nous ont tiré des inférences sur les mots liés, mais pour renvoyer, nous voulons dessiner le même type d'inférence sur les documents , qui sont une liste de mots. Heureusement, il y a une grande littérature pour suggérer que simplement prendre une moyenne pondérée de vecteurs de mots pour chaque mot dans un document peut nous permettre une bonne approximation d'un "vecteur de document" qui représente le document dans son ensemble. Bien qu'il existe des méthodes plus avancées que nous pouvons utiliser, comme les vecteurs de paragraphe ou les modèles qui tiennent compte de l'ordre des mots comme Bert, la moyenne des vecteurs de mots fonctionne assez bien pour les cas d'utilisation de Revery et est simple à mettre en œuvre et à tester, donc reveryer les collets avec cette approche.

Une fois que nous pouvons générer des Au démarrage, Revery's API Server index et génère des vecteurs de documents pour tous les documents qu'il peut trouver dans mon ensemble de données (qui n'est pas trop grand - environ 25 000 au moment de la rédaction), et à chaque demande, l'algorithme calcule un vecteur de document pour le document demandé, et trie chaque document dans l'index de recherche par sa distance cosinus vers le document de requête, pour renvoyer des résultats de top n .

En revergant, chaque partie de cet algorithme est écrite à la main dans Go. C'est pour plusieurs raisons:

Je voulais m'encourager à comprendre pleinement ces algorithmes de base du métier, en écrivant le code moi-même
La plupart des bibliothèques open source pour faire ce type de calcul sont mises à disposition dans des packages Python, et je n'ai pas d'excellentes infrastructures personnelles pour déployer et maintenir une application Python.
GO est assez rapide, anecdotique, pour cette tâche.

Les clients de Revery - l'extension et l'application Web - parlent à ce point de terminaison API unique. Les clients eux-mêmes sont assez ordinaires, donc je n'entrerai pas dans les détails décrivant comment ils fonctionnent ici.

Développement et déploiement

Ici, le même avertissement que j'ai partagé avec Monocle s'applique également:

️ Remarque : Si vous lisez cette section pour essayer de configurer et d'exécuter votre propre instance de renom, j'applaudis votre audace, mais ce n'est peut-être pas super facile ou fructueuse - la configuration de Revery (en particulier du côté des données et de l'indexation) est assez spécifique non seulement à mes sources de données, mais aussi à la façon dont je structure ces fichiers. Je ne vous empêcherai pas d'essayer de créer votre propre index de recherche, mais soyez averti: cela pourrait ne pas fonctionner, et je ne vais probablement pas faire un support technique. Pour cette raison, cette section est également écrite à la première personne, principalement pour ma future référence.

Revery dépend de l'indice de recherche produit par l'indexeur de Monocle, donc je m'assure généralement que Revery ait une copie récente de l'index de recherche de Monocle disponible avant l'exécution.

Revery a deux bases de code indépendantes dans le même référentiel. Le premier est l'extension Chrome, qui vit entièrement à l'intérieur du dossier ./extension . Voici comment je l'ai configuré:

L'extension a besoin d'un jeton d'authentification de l'API pour parler à l'API de revertissement. Je choisis généralement simplement une chaîne aléatoire arbitrairement longue. Ensuite, je place un fichier dans ./extension appelé token.js avec le contenu:
```
 const REVERY_TOKEN = '<some API key here>' ;
```
Je vais à chrome://extensions et clique sur "Chargement Unlebacked" pour charger le dossier ./extension en tant que "extension déballée" dans mon navigateur, ce qui rendra l'extension disponible dans chaque onglet.

C'est tout pour la configuration d'extension. Ensuite, j'ai configuré le serveur:

Prenez le même jeton d'authentification d'en haut et placez uniquement la chaîne de jeton elle-même à l'intérieur de tokens.txt dans la racine du dossier du projet. Le serveur de reveryme révèlera le contenu garni de Whitespace de ce fichier et l'utilisera comme clé API.
Running Running make construira l'exécutable binaire revery dans le dossier du projet.
Revery a besoin de deux ensembles de données supplémentaires pour fonctionner: le modèle d'intégration du mot et l'ensemble de données de documents de Monocle.
- Téléchargez un fichier d'incorporation de mots (par exemple, à partir de FastText) et coupez-le à une taille raisonnable (les mots 50-100k supérieurs semblent bien fonctionner). Coupez la première ligne, ce qui indique généralement le nombre total de mots et le nombre de dimensions. Le code de Revery suppose 300 dimensions, donc si ce n'est pas le cas, révisez le code.
- Copiez l'ensemble de données de documents docs.json de MonoCle généré par l'indexeur ./corpus/docs.json .
L'exécution de l'exécutable revery devrait désormais correctement prétraiter l'index du modèle et de la recherche et démarrer le serveur d'applications Web.

Art antérieur et travail futur

Bien que Revery soit suffisamment utile pour que je puisse utiliser quotidiennement, il y a beaucoup de recherches actives dans l'espace de recherche générale de la langue naturelle, et Revery lui-même a beaucoup de place pour les améliorations.

Du côté des données:

Expérimenter avec d'autres incorporations de mots qui peuvent fournir de meilleures performances. J'ai essayé FastText et Lexvec, mais il existe de nombreux autres modèles ouverts disponibles.
Génération d'un mot personnalisé Intrmis optimisé pour mon ensemble de données et pour une utilisation dans la formation de vecteurs de documents

Du côté du code:

Optimisation des algorithmes qui touchent les données pour mieux évoluer, en utilisant une certaine mise en cache et une bonne optimisation des mains à l'ancienne du code
De meilleures façons de faire surface de documents contextuellement dans le navigateur. À l'heure actuelle, la recherche de renom dans un navigateur nécessite une action utilisateur explicite. Peut-être pouvons-nous les faire surface complètement automatiquement, ou même détecter quand un utilisateur s'est fait défiler à la fin d'une page ou a mis en évidence une section intéressante du document pour suggérer automatiquement les documents connexes.
De meilleures façons d'équilibrer les avantages de la recherche basée sur les mots clés et sémantique. À l'heure actuelle, Monocle et Revery sont deux applications complètement distinctes, mais avoir les deux types de recherche collaborant les uns avec les autres ou même afficher simplement côte à côte à l'écran peut être plus utile.

Il y a aussi beaucoup d'art antérieur dans cet espace. Bien que je ne puisse pas les énumérer ici, il y en a quelques-uns qui se distinguent comme des inspirations pour renommer.

Monocle, le prédécesseur direct de l'encouverture qui utilise le même ensemble de données pour la recherche de mots clés
même.energy, qui permet à la recherche de tweets ou de photos du même "style" à l'aide d'un modèle de transformateur
SEMANTICA, qui utilise des incorporations de mots pour fournir un outil de niveau inférieur pour explorer les relations entre les mots et les concepts individuels
La forêt d'information de Tyler Angert, une note imaginative sur les navigateurs Web de l'avenir
Document des techniques d'intégration , qui ont été un aperçu utile du domaine lorsque j'ai commencé ce projet

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-13
taille 2MB
Provenant de Github

Applications connexes

Reventure

2024-09-12
Logiciel pour chaussures intelligentes EVERY EFFORT

2024-06-29
Application REVERTO

2024-04-22
Bleu inversé

2023-08-08
Vêtements quotidiens ReverseBlue

2023-08-08
L'amour vous suit CHAQUE

2023-05-24

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout