Téléchargement search engine system - Téléchargement du code source search engine system

search engine system

Autre code source

v1.0.0

Télécharger

Système de moteur de recherche

Un système de moteur de recherche évolutif prenant en charge les capacités de recherche d'image et de texte à l'aide de la similitude vectorielle.

Recherche d'image

Recherche de texte

Architecture du système

Architecture du système

Caractéristiques

Moteur de recherche d'images : Recherchez des images similaires à l'aide d'incorporation d'apprentissage en profondeur
- Documentation détaillée
- Recherche de similitude vectorielle à l'aide de Qdrant
- Prise en charge de plusieurs formats d'image
- Génération de traitement et d'incorporation d'images en temps réel
- Basé sur une architecture Resnet / EfficientNet pour l'extraction des fonctionnalités
Moteur de recherche de texte : recherche de texte avancée avec elasticsearch
- Documentation détaillée
- Capacités de recherche doubles:
  - Ambordage automatique (recherche-as-you) utilisant le jetons Edge Ngram Edge
  - Recherche de texte intégral avec correspondance floue
- Score personnalisé basé sur les mesures commerciales
- Recherche multi-champs sur les noms des articles et des magasins
- Soutien à la langue vietnamienne

Détails techniques

Pipeline de recherche d'images

Prétraitement :
- Redimensionnement et normalisation d'images
- Augmentation des données pour la formation
- Prise en charge des formats JPEG, PNG et WebP
Extraction de caractéristiques :
- Architectures CNN profondes (Resnet / EfficientNet)
- Format ONNX pour la compatibilité multiplateforme
- Optimisation Tensorrt pour l'inférence GPU
- Sortie: 512/1024 Dimensionnalités
Stockage et recherche vectoriels :
- Base de données vectorielle QDRANT pour une recherche de similitude efficace
- INDEX HNSW pour la recherche rapide à l'approximation le plus proche
- Métriques de distance configurables (cosinus / euclidien)

Pipeline de recherche de texte

Traitement et analyse du texte :
- Analyseurs de recherche Elasticsearch personnalisés:
  - Analyseur de mots clés avec pliage minuscule et ASCII
  - Edge Ngram Analyzer pour la saisie semi-automatique (min_gram: 2, max_gram: 5)
  - Analyseur standard pour la recherche en texte intégral
- Filtres de caractère et tokenisation
- Prise en charge du texte vietnamien
Approches de recherche :
1. Ambordage automatique (recherche de type astuce) :
  - Tokenizer Edge Ngram pour la correspondance du préfixe
  - Suggester d'achèvement personnalisé
  - Optimisé pour les suggestions instantanées
  - Minimum 2 caractères pour les suggestions
2. Recherche de texte intégral :
  - Requête multi-match à travers les champs:
    - item_name
    - shop_name
  - Match flou avec le flou automatique
  - Score personnalisé en fonction des mesures commerciales:
    - Taux de vente (pourcentage de remise)
    - Volume des ventes (> 1000 bonus de vente)
    - Normalisation des prix de l'article
Optimisation de la recherche :
- Modèle de notation personnalisé à l'aide de scripts Elasticsearch
- Indexation par lots pour une ingestion de données efficace
- Opérations de recherche asynchrones
- Taille des résultats configurables
- Gestion des erreurs et journalisation
Caractéristiques Elasticsearch :
- Mappages d'index personnalisés
- Plusieurs types de champs et analyseurs
- Requêtes de score de fonction
- Score basé sur des scripts
- Opérations d'indexation en vrac

Pile technologique

Modèle de service

Nvidia Triton Inference Server :
- Documentation du serveur Triton
- Versioning modèle et tests A / B
- Lots dynamiques
- Exécution du modèle simultané
- Optimisation du GPU avec Tensorrt
- Pipeline de conversion de format de modèle:
  - Pytorch → Onnx → Tensorrt

Infrastructure

Conteneurisation :
- Builds docker en plusieurs étapes
- Images de conteneur optimisé
- Docker Compose pour le développement
Orchestration :
- Déploiement de Kubernetes
- CHARTS DE COURSE POUR GESTION DES PACK
- Autoscble de la gousse horizontale
- Gestion et échelle des ressources
Surveillance et journalisation :
- Métriques de Prometheus
- Tableaux de bord Grafana
- Traçage distribué
- Surveillance des performances

Commencer

Clone le référentiel:

git clone https://github.com/vectornguyen76/search-engine-system.git

Démarrez les services à l'aide de Docker Compose:

docker-compose up -d

Accéder aux services:

Image Search UI: http: // localhost: 8501
Recherche de texte UI: http: // localhost: 8502
Serveur Triton: http: // localhost: 8000

Développement

Pipeline CI / CD

Environnement de développement :
- Code Linting (Flake8)
- Tests unitaires
- Tests d'intégration
Environnement de mise en scène :
- Tests de performance
- Tests de charge
- Analyse de sécurité
Environnement de production :
- Déploiement bleu-vert
- Recul automatisé
- Surveillance des performances