Proyek ini menyediakan serangkaian skrip dan alat untuk mengubah file XML menjadi format JSON. Ini dirancang untuk bekerja dengan sumber data XML yang berbeda dan sepenuhnya dapat disesuaikan, mendukung beberapa modul konversi. Proyek ini dibagi menjadi modul Python terpisah untuk menangani berbagai jenis data, termasuk dokumen, orang, dan arsip.
Solusinya meliputi:
convert/
archiveLinkConvert.py # Handles conversion of archive link XMLs
artworkConvert.py # Handles artwork XML data
commonConvert.py # Contains common conversion utilities
personConvert.py # Handles conversion of person-related XMLs
docs/
pictures/ # Picture documentation related to the project
Analyza_SP.md # Analysis related documentation
documentaria_rudolphina.md # Project-specific documentation
model/
ArchiveLink.py # Data model for archive links
Document.py # Data model for documents
Person.py # Data model for person records
scripts/
main_convert.py # Main script to execute conversion
.gitignore # Git ignore configuration
README.md # This documentation file Untuk menggunakan alat ini, Anda akan membutuhkan Python dan Pip terpasang.
Kemudian, jalankan perintah berikut:
pip install -r requirements.txt Ini akan menginstal pustaka yang diperlukan untuk menjalankan skrip. Kemudian cukup jalankan skrip main_convert.py dengan opsi yang sesuai. Berikut adalah perintah utama untuk menjalankan program dari direktori XMLtoJSON :
Tampilkan informasi bantuan:
python3 scripts/main_convert.py --helpatau
python3 scripts/main_convert.py --hKonversi semua jenis file XML:
python3 scripts/main_convert.py --type all --input_path " path_for_input_data " --output_path " path_for_output_data "Konversi file XML terkait nama:
python3 scripts/main_convert.py --type names --input_path " path_for_input_data " --output_path " path_for_output_data "Konversi file XML terkait register:
python3 scripts/main_convert.py --type registers --input_path " path_for_input_data " --output_path " path_for_output_data "Konversi file XML terkait arsip:
python3 scripts/main_convert.py --type archive --input_path " path_for_input_data " --output_path " path_for_output_data "Folder data input harus disusun sebagai berikut:
input_data/
Archiv/ # Archive-related XML files
Regesten/ # Register-related XML files
Namen/ # Name-related XML files
Indicies/ # Index-related XML files git clone https://github.com/VandlJ.git
cd XMLtoJSONUntuk memulai konversi, gunakan skrip konversi utama. Misalnya, untuk mengonversi semua file XML:
python3 scripts/main_convert.py --type all --input_path " ../test_data " --output_path " ../test_data/output "Anda juga dapat memeriksa semua opsi yang tersedia dan mendapatkan informasi terperinci dengan menjalankan:
python3 scripts/main_convert.py --help Perintah ini akan mulai memproses file XML di direktori --input_path yang ditentukan dan output hasilnya ke direktori --output_path .
Proyek ini diwarisi dari tim lain, dan kami membuat beberapa peningkatan dan perbaikan yang signifikan untuk meningkatkan fungsionalitas dan keandalannya:
Penanganan Kesalahan: Spaces/Karakter Kosong Untuk Indentasi Teks - Di File Regesten
display : Bidang ini digunakan untuk menampilkan teks di frontend, memastikan ia mempertahankan pemformatan asli untuk keterbacaan.processable : Bidang ini berisi versi teks yang lebih bersih, dioptimalkan untuk pemrosesan dan analisis komputer.Metadata Handling: Masalah Metadata di Regesten
.p dalam file Regesten. Beberapa elemen hilang atau salah ditangkap. Kami melakukan tinjauan menyeluruh dan memastikan bahwa semua elemen metadata sekarang secara akurat ditangkap dan diproses dalam iterasi program kami. Enhanced Interactivity: Tambahkan Informasi onmouseover="highlightWords(event, '...')" di Regesten
onmouseover ditambahkan untuk menyoroti kata -kata ketika melayang. Data yang diproses sekarang termasuk: "names" : [
{
"Aichholz_Johann" : " Johann Aichholz " ,
"alias" : " Johann Aichholz Ehrzney doctor "
},
{
"Strauben_Franz" : " Franz Strauben " ,
"alias" : " Frannzen Strauben "
}
]Pemrosesan Nama: Memecah Nama Depan dan Nama Belakang Melalui Alat Eksternal - Gettyulan
Skrip utama terpadu untuk konversi
--type , --input_path , dan --output_path . Perubahan ini menyederhanakan eksekusi dan meningkatkan fleksibilitas proses konversi.Instruksi dokumentasi dan pengaturan yang ditingkatkan
Peningkatan kinerja dan perbaikan bug
Perbaikan dalam output JSON tipe arsip
hasSublink , linkTo , dan next_link dalam file JSON output untuk jenis arsip. Ini memastikan bahwa variabel -variabel ini diwakili secara akurat dan terhubung dalam output JSON.Perbaikan ini telah secara signifikan meningkatkan fungsionalitas, kegunaan, dan keandalan proyek konverter XML ke JSON, membuatnya lebih kuat dan ramah pengguna.