Téléchargement similarity search kit - Téléchargement du code source similarity search kit

similarity search kit

Autre code source

0.0.15

Télécharger

SimilitySearchkit

SSK-Logo

SimilitySearchkit est un package rapide permettant des incorporations de texte sur disque et des fonctionnalités de recherche sémantique pour les applications iOS et macOS en quelques lignes. Soulignant la vitesse, l'extensibilité et la confidentialité, il prend en charge une variété de modèles PNL de pointe intégrés et de mesures de similitude, en plus de l'intégration transparente pour les options d'apport.

Discuter avec l'exemple des fichiers

Cas d'utilisation

Certains cas d'utilisation potentiels pour la similitude de recherche comprennent:

Moteurs de recherche de documents axés sur la confidentialité: Créez un moteur de recherche qui traite localement des documents sensibles, sans exposer les données utilisateur aux services externes. (Voir l'exemple de projet "ChatWithFilesexample" dans le répertoire des exemples.)
Systèmes de réponses hors ligne: implémentez un système de réponse aux questions qui trouve les réponses les plus pertinentes à la requête d'un utilisateur dans un ensemble de données local.
Moteurs de clustering et de recommandation de documents: regroupant et organisez automatiquement des documents en fonction de leur contenu textuel sur le bord.

En tirant parti de similitudeSearchKit , les développeurs peuvent facilement créer des applications puissantes qui gardent les données près de la maison sans compromis majeurs dans la fonctionnalité ou les performances.

Installation

Pour installer SimilitySearchKit , ajoutez-le simplement en fonction de votre projet Swift à l'aide du gestionnaire de packages Swift. Je recommande d'utiliser la méthode Xcode personnellement via:

File → Add Packages... → Search or Enter Package Url → https://github.com/ZachNagengast/similarity-search-kit.git

Xcode devrait vous offrir les options suivantes pour choisir le modèle que vous souhaitez ajouter (voir les modèles disponibles ci-dessous pour aider à choisir):

Xcode Swift Package Manager Importation

Si vous souhaitez l'ajouter via Package.swift , ajoutez la ligne suivante à votre tableau de dépendances:

 . package ( url : " https://github.com/ZachNagengast/similarity-search-kit.git " , from : " 0.0.1 " )

Ensuite, ajoutez la dépendance cible appropriée à la cible souhaitée:

 . target ( name : " YourTarget " , dependencies : [
    " SimilaritySearchKit " , 
    " SimilaritySearchKitDistilbert " , 
    " SimilaritySearchKitMiniLMMultiQA " , 
    " SimilaritySearchKitMiniLMAll "
] )

Si vous souhaitez seulement utiliser un sous-ensemble des modèles disponibles, vous pouvez omettre la dépendance correspondante. Cela réduira la taille de votre binaire final.

Usage

Pour utiliser SimilitySearchKit dans votre projet, importez d'abord le cadre:

import SimilaritySearchKit

Ensuite, créez une instance de SimilityIndex avec le modèle de métrique et d'intégration de distance souhaitée (voir ci-dessous pour les options):

 let similarityIndex = await SimilarityIndex (
    model : NativeEmbeddings ( ) ,
    metric : CosineSimilarity ( )
)

Ensuite, ajoutez votre texte que vous souhaitez rendre consultable à l'index:

 await similarityIndex . addItem (
    id : " id1 " , 
    text : " Metal was released in June 2014. " , 
    metadata : [ " source " : " example.pdf " ]
)

Enfin, interrogez l'index pour les éléments les plus similaires à une requête donnée:

 let results = await similarityIndex . search ( " When was metal released? " )
print ( results )

Qui publie un tableau de recherche : [SearchResult(id: "id1", score: 0.86216, metadata: ["source": "example.pdf"])]

Exemples

Le répertoire Examples contient des applications iOS et macOS multiples qui montrent comment utiliser la similitude de recherche dans sa mesure.

Exemple	Description	Exigences
`BasicExample`	Une application multiplateforme de base qui index et compare la similitude d'un petit ensemble de chaînes codées en dur.	iOS 16.0+, macOS 13.0+
`PDFExample`	Une application Mac-catalyst qui permet une recherche sémantique sur le contenu des fichiers PDF individuels.	iOS 16.0+
`ChatWithFilesExample`	Une application MacOS avancée qui index tous les fichiers texte sur votre ordinateur.	macOS 13.0+

Modèles disponibles

Modèle	Cas d'utilisation	Taille	Source
`NaturalLanguage`	Similitude du texte, inférence plus rapide	Intégré	Pomme
`MiniLMAll`	Similitude du texte, inférence la plus rapide	46 MB	Étreinte
`Distilbert`	Recherche de questions et réponses, précision la plus élevée	86 Mb (quantifié)	Étreinte
`MiniLMMultiQA`	Recherche de questions et réponses, inférence la plus rapide	46 MB	Étreinte

Les modèles sont conformes au EmbeddingProtocol et peuvent être utilisés de manière interchangeable avec la classe SimilarityIndex .

Une liste petite mais croissante de modèles préfabriqués se trouve dans ce dépôt sur HuggingFace. Si vous avez un modèle que vous souhaitez voir ajouté à la liste, veuillez ouvrir un problème ou soumettre une demande de traction.

Métriques disponibles

Métrique	Description
`DotProduct`	Mesure la similitude entre deux vecteurs comme le produit de leurs amplitudes
`CosineSimilarity`	Calcule la similitude en mesurant le cosinus de l'angle entre deux vecteurs
`EuclideanDistance`	Calcule la distance en ligne droite entre deux points dans l'espace euclidien

Les métriques sont conformes au DistanceMetricProtocol et peuvent être utilisées de manière interchangeable avec la classe SimilarityIndex .

Apportez le vôtre

Toutes les principales parties de la SimilarityIndex peuvent être remplacées par des implémentations personnalisées conformes aux protocoles suivants:

Embeddingsprotocol

Accepte une chaîne et renvoie un tableau de flotteurs représentant l'incorporation du texte d'entrée.

 func encode ( sentence : String ) async -> [ Float ] ?

DistanceMetricProtocol

Accepte un vecteur d'intégration de requête et une liste de vecteurs d'intégration et renvoie un tuple du score métrique de distance et de l'indice du voisin le plus proche.

 func findNearest ( for queryEmbedding : [ Float ] , in neighborEmbeddings : [ [ Float ] ] , resultsCount : Int ) -> [ ( Float , Int ) ]

Textpitterprotocol

Fruit une chaîne en morceaux d'une taille donnée, avec un chevauchement donné. Ceci est utile pour diviser de longs documents en morceaux plus petits pour l'intégration. Il renvoie la liste des morceaux et une liste facultative de tokensids pour chaque morceau.

 func split ( text : String , chunkSize : Int , overlapSize : Int ) -> ( [ String ] , [ [ String ] ] ? )

Tokenizerprotocol

Tokenise et détokenise le texte. Utilisez-le pour des modèles personnalisés qui utilisent des tokenisants différents de ceux disponibles dans la liste actuelle.

 func tokenize ( text : String ) -> [ String ]
func detokenize ( tokens : [ String ] ) -> String

Vectorstoreprotocol

Enregistrer et charger les éléments d'index. L'implémentation par défaut utilise des fichiers JSON, mais cela peut être remplacé pour utiliser n'importe quel mécanisme de stockage.

 func saveIndex ( items : [ IndexItem ] , to url : URL , as name : String ) throws -> URL
func loadIndex ( from url : URL ) throws -> [ IndexItem ]
func listIndexes ( at url : URL ) -> [ URL ]

Remerciements

De nombreuses parties de ce projet ont été dérivées du code existant, soit déjà à Swift, soit traduites en Swift grâce à Chatgpt. Ce sont quelques-uns des principaux projets qui ont été référencés:

Transformers en étreinte
- https://github.com/huggingface/transformers
- https://github.com/huggingface/swift-coreml-transformateurs
Transformers de phrase https://github.com/ukplab/sence-transformateurs
Langchain https://github.com/hwchase17/langchain
Chroma https://github.com/chroma-core/chroma
Pinecone https://github.com/pinecone-io/examples
Plugins openai https://github.com/openai/chatgpt-reprieval-plugin

Motivation

Ce projet a été inspiré par les progrès incroyables des services et applications en langage naturel qui ont eu lieu avec l'émergence de Chatgpt. Bien que ces services aient débloqué un tout nouveau monde d'applications de texte puissantes, elles comptent souvent sur les services cloud. Plus précisément, de nombreux services "discuter avec les données" nécessitent que les utilisateurs téléchargent leurs données sur des serveurs distants pour le traitement et le stockage. Bien que cela fonctionne pour certains, il pourrait ne pas être le mieux adapté à ceux qui dans des environnements à faible connectivité, ou à gérer des informations confidentielles ou sensibles. Bien qu'Apple ait une bibliothèque groupée NaturalLanguage pour des tâches similaires, le processus de conversion du modèle COREML ouvre un tableau beaucoup plus large de modèles et de cas d'utilisation. Dans cet esprit, SimilitySearchKit vise à fournir une solution robuste et à disque qui permet aux développeurs de créer des applications NLP de pointe dans l'écosystème Apple.

Travail futur

Voici une courte liste de certaines fonctionnalités prévues pour les versions futures:

Je suis curieux de voir comment les gens utilisent cette bibliothèque et quelles autres fonctionnalités seraient utiles, alors n'hésitez pas à contacter Twitter @zachnaGengast ou envoyer un courriel à Znagengast (at) gmail (dot) com.

Développer

Informations supplémentaires

Version 0.0.15
Type Autre code source
Date de mise à jour 2025-04-17
taille 139.92MB
Provenant de Github

Applications connexes

Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
Recherche de mots Jeu de puzzle de mots Dernière version

2024-07-11
Jeux de recherche de mots Word Beach Version mobile chinoise

2023-11-28
Recherche de mots pour les enfants, dernière version du jeu

2023-10-08
Liehuo! Rechercher Recherche en anglais

2011-01-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout