Téléchargement XMLtoJSON - Téléchargement du code source XMLtoJSON

XMLtoJSON

Autre code source

1.0.0

Télécharger

XML à JSON Converter

Table des matières

XML à JSON Converter
- Table des matières
- Aperçu
- Caractéristiques
- Structure de référentiel
- Usage
  - Structure du dossier de données d'entrée
- Instructions de configuration
  - Étape 1: cloner le référentiel
  - Étape 2: exécutez la conversion
- Changements et améliorations

Aperçu

Ce projet fournit un ensemble de scripts et d'outils pour convertir les fichiers XML au format JSON. Il est conçu pour fonctionner avec différentes sources de données XML et est entièrement personnalisable, prenant en charge plusieurs modules de conversion. Le projet est divisé en modules Python distincts pour gérer différents types de données, y compris les documents, les personnes et les archives.

La solution comprend:

Diverses méthodes d'analyse XML pour extraire les données de différents types de fichiers XML.
Outils pour gérer des types de documents spécifiques comme les archives, les illustrations et les personnes.
Une structure flexible pour une conversion et une intégration faciles avec d'autres systèmes.

Caractéristiques

Scripts de conversion personnalisés : conçus pour différents formats XML, y compris les documents, les personnes et les liens d'archives.
Gestion des données flexibles : la possibilité de gérer le texte, les métadonnées et les attributs spécifiques tels que les alias et les références.
Structure modulaire : chaque type XML est géré par des scripts séparés, ce qui facilite l'extension ou la modification.

Structure de référentiel

convert/
  archiveLinkConvert.py      # Handles conversion of archive link XMLs
  artworkConvert.py          # Handles artwork XML data
  commonConvert.py           # Contains common conversion utilities
  personConvert.py           # Handles conversion of person-related XMLs
docs/
  pictures/                  # Picture documentation related to the project
  Analyza_SP.md              # Analysis related documentation
  documentaria_rudolphina.md # Project-specific documentation
model/
  ArchiveLink.py             # Data model for archive links
  Document.py                # Data model for documents
  Person.py                  # Data model for person records
scripts/
  main_convert.py            # Main script to execute conversion
  .gitignore                 # Git ignore configuration
  README.md                  # This documentation file

Usage

Pour utiliser cet outil, vous aurez besoin de Python et PIP installé.

Ensuite, exécutez la commande suivante:

pip install -r requirements.txt

Cela installera les bibliothèques nécessaires pour exécuter le script. Ensuite, exécutez simplement le script main_convert.py avec les options appropriées. Voici les principales commandes pour exécuter le programme à partir du répertoire XMLtoJSON :

Afficher les informations d'aide:

python3 scripts/main_convert.py --help

ou

python3 scripts/main_convert.py --h

Convertir tous les types de fichiers XML:

python3 scripts/main_convert.py --type all --input_path " path_for_input_data " --output_path " path_for_output_data "

Convertir les fichiers XML liés au nom:

python3 scripts/main_convert.py --type names --input_path " path_for_input_data " --output_path " path_for_output_data "

Convertir les fichiers XML liés au registre:

python3 scripts/main_convert.py --type registers --input_path " path_for_input_data " --output_path " path_for_output_data "

Convertir les fichiers XML liés aux archives:

python3 scripts/main_convert.py --type archive --input_path " path_for_input_data " --output_path " path_for_output_data "

Structure du dossier de données d'entrée

Le dossier de données d'entrée doit être structuré comme suit:

input_data/
  Archiv/                    # Archive-related XML files
  Regesten/                  # Register-related XML files
  Namen/                     # Name-related XML files
  Indicies/                  # Index-related XML files

Instructions de configuration

Étape 1: cloner le référentiel

git clone https://github.com/VandlJ.git
cd XMLtoJSON

Étape 2: exécutez la conversion

Pour commencer la conversion, utilisez le script de conversion principal. Par exemple, pour convertir tous les fichiers XML:

python3 scripts/main_convert.py --type all --input_path " ../test_data " --output_path " ../test_data/output "

Vous pouvez également consulter toutes les options disponibles et obtenir des informations détaillées en exécutant:

python3 scripts/main_convert.py --help

Cette commande commencera à traiter les fichiers XML dans le répertoire spécifié --input_path et sortira les résultats du répertoire --output_path .

Changements et améliorations

Ce projet a été hérité d'une autre équipe, et nous avons apporté plusieurs améliorations et correctifs significatifs pour améliorer sa fonctionnalité et sa fiabilité:

Gestion des erreurs: espaces / caractères vierges pour l'indentation dans le texte - dans les fichiers Reheten
- Auparavant, les fichiers Regestten JSON avaient des problèmes avec des espaces et des caractères vierges provoquant des erreurs d'indentation. Nous l'avons abordé en divisant le champ "texte" en deux valeurs de clé distinctes:
  - display : Ce champ est utilisé pour afficher du texte sur le frontend, garantissant qu'il conserve le formatage d'origine pour la lisibilité.
  - processable : Ce champ contient une version plus propre du texte, optimisé pour le traitement et l'analyse informatiques.
Manipulation des métadonnées: métadonnées problématiques dans Rebelesten
- Il y avait des incohérences dans la capture d'éléments de métadonnées tels que .p dans les fichiers Reheten. Certains éléments manquaient ou incorrectement capturés. Nous avons effectué un examen approfondi et nous sommes assurés que tous les éléments de métadonnées sont désormais capturés et traités avec précision dans notre itération du programme.
Interactivité améliorée: ajouter des informations onmouseover="highlightWords(event, '...')" dans Reheten
- Pour améliorer l'expérience utilisateur, nous avons ajouté de l'interactivité aux fichiers Reheten. L'attribut onmouseover a été ajouté pour mettre en évidence les mots lorsqu'il a survolé. Les données traitées comprennent désormais:
```
 "names" : [
  {
    "Aichholz_Johann" : " Johann Aichholz " ,
    "alias" : " Johann Aichholz Ehrzney doctor "
  },
  {
    "Strauben_Franz" : " Franz Strauben " ,
    "alias" : " Frannzen Strauben "
  }
]
```
Traitement du nom: division du prénom et du nom de famille via l'outil externe - Gettyulan
- Nous avons intégré le projet avec un outil externe, Gettyulan, pour améliorer le traitement du nom. Cet outil ou API fournit des liens URL aux auteurs et renvoie une demande par personne. L'application interroge le SPARQL Endpoint Getty, où chaque nom est validé et traité. Cette intégration garantit des informations sur les auteurs précis et enrichis.
- De plus, nous avons fait de l'API pour le fractionnement de nom de nom avec asynchrone avec la mise en cache, augmentant considérablement les performances en réduisant les demandes redondantes et en améliorant les temps de réponse.
Script principal unifié pour la conversion
- Nous avons rationalisé le processus de conversion en consolidant les trois scripts Python principaux (précédemment utilisés pour différents types de documents) en un seul script unifié. Ce script principal est désormais configurable via des options de terminal, permettant aux utilisateurs de spécifier --type , --input_path et --output_path . Ce changement simplifie l'exécution et améliore la flexibilité du processus de conversion.
Amélioration des instructions de documentation et de configuration
- Mise à jour de la documentation pour refléter les nouvelles modifications et fournir des instructions de configuration claires. Cela comprend des exemples d'utilisation détaillés et la structure du dossier de données d'entrée attendu pour s'assurer que les utilisateurs peuvent facilement démarrer avec le projet.
Améliorations des performances et correctifs de bogues
- A effectué un examen complet de la base de code pour identifier et corriger les bogues. Implémenté les améliorations des performances pour garantir que le processus de conversion est efficace et fiable.
Correction de la sortie JSON de type archiv
- Correction de la gestion des variables hasSublink , linkTo et next_link dans les fichiers JSON de sortie pour le type archiv. Cela garantit que ces variables sont représentées avec précision et liées dans la sortie JSON.

Ces améliorations ont considérablement amélioré la fonctionnalité, la convivialité et la fiabilité du projet XML à JSON Converter, le rendant plus robuste et convivial.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-27
taille 1.24MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout