Area pengambilan generasi augmented berkembang pesat. Ada banyak cara berbeda untuk menerapkan pengambilan. Beberapa orang menggunakan database embeddings dan vektor, beberapa menggunakan grafik semantik lainnya. Jadi, ada desain yang berbeda dan juga ada tugas yang berbeda dan penting untuk mencocokkan desain dengan tugas 1 .
Tujuan harness ini untuk memberikan definisi koleksi, abstraksi, dan blok bangunan untuk membantu dalam memahami, membandingkan, membandingkan, dan memilih desain pengambilan khusus yang paling cocok dengan tugas yang ada.
Harness dimaksudkan untuk agak mirip dengan Technology + Technology Compatibility Kit (TCK) - untuk menyediakan:
Java terpilih sebagai teknologi dominan di dunia perusahaan dengan kekuatan ekspresif yang kaya dari bahasa dan ekosistem dewasa yang besar. EMF Ecore dipilih karena ada kemampuan:
Halaman ini memberikan pengantar konsep inti dan menguraikan beberapa kasus penggunaan (tugas) dan desain (alternatif).
Diagram di bawah ini menguraikan struktur dan konteks harness:

Bagian berikut memberikan definisi dan garis besar dimensi tugas/desain untuk setiap definisi. Metamodel menangkap beberapa definisi sebagai elemen model dan menguraikannya menjadi fitur, operasi, dan subclass.
Dokumen adalah representasi pemikiran atau informasi yang diabaikan. Untuk keperluan dokumen harness ini:
Implementasi "fisik":
Implementasi "logis":
pom.xml dapat dimuat ke dalam model objek proyek, file java dapat dimuat ke pohon sintaks atau grafik dengan referensi tipe/bidang/metode yang diselesaikan.Mengubah satu representasi dokumen ke yang lain. Misalnya PDF atau OCR JSON ke model objek dari pesan Swift Mt 700.
Penyimpanan dokumen dalam format atau format tertentu. Misalnya sistem file dengan dokumen PDF. Sumber dokumen dapat dikonversi/diadaptasi. Salah satu contoh sumber dokumen adalah komitmen git. Model Nasdanika Gitlab dapat digunakan untuk mengimplementasikan pemuatan dokumen dari GitLab.
Kumpulan dokumen yang menyediakan fungsionalitas penyimpanan dan pengambilan. Antarmuka utama DPI (lihat di bawah) yang akan diimplementasikan oleh desain.
Saat menyimpan dokumen, repositori dapat melakukan tugas -tugas seperti pengenalan gambar.
Mungkin ada beberapa modalitas pengambilan seperti:
Repositori dapat dikumpulkan dari repositori lain dan pemuat data. Misalnya repositori PDF dapat dirakit dari PDF -> Model Object Data Loader dan repositori model objek. Juga dokumen repositori mungkin tidak perlu menyimpan/membuat ulang dokumen sumber - mereka dapat merujuk dan mengambil dari toko dokumen - yang asli dari mana dokumen dimuat, atau toko dokumen khusus repositori.
Dimungkinkan juga untuk menyusun desain repositori yang berbeda. Misalnya, repositori yang mendukung pencarian kata kunci dan repositori yang mendukung pencarian semantik. Dalam hal ini hasil kueri repositori pencarian kata kunci akan diperlukan, tetapi tidak cukup dan mungkin digunakan untuk memvalidasi hasil repositori pencarian semantik.
Pengguna menanyakan repositori dokumen melalui Web UI. Mereka dapat melakukannya sebagai bagian dari fungsi pekerjaan mereka atau untuk mengevaluasi fungsi kueri dari desain tertentu dan memberikan umpan balik. Kedua modalitas ini dapat digabungkan - pengguna dapat memilih untuk hanya menggunakan mesin/desain kueri "Champion", misalnya pencarian kata kunci, atau juga memilih mesin/desain "penantang".
UI Web dapat menangkap konteks pengguna seperti peran/posisi dalam organisasi dan meneruskannya ke desain sebagai bagian dari kueri.
Suatu pihak yang tertarik untuk meningkatkan kualitas pekerjaan pengguna seperti produktivitas dengan memanfaatkan pembuatan augmented dokumen.
Sponsor perlu menyeimbangkan beberapa kriteria untuk meminimalkan "fungsi kerugian":
Desain adalah instantiasi/perwujudan teknologi dan parameter konfigurasinya.
Poin Variasi Desain - Apa yang dapat diubah dalam perwujudan/instantiasi dan sumber nilai yang berbeda. Misalnya:
Dimensi desain dapat membentuk pohon atau, lebih tepatnya, grafik terarah. EG versi basis data vektor akan menjadi node di bawah node untuk database vektor tertentu.
Desain Penyedia Antarmuka (DPI) Abstrak harness dari implementasi desain tertentu. Ini adalah seperangkat antarmuka dan kelas abstrak yang harus diterapkan oleh desain. Misalnya antarmuka DocumentRepository . DPI didefinisikan dalam Java/Ecore dan dapat memberikan adaptor untuk berbagai teknologi. Secara khusus:
Tugas adalah penggunaan khusus pengambilan dokumen. Misalnya, pencarian semantik dalam dokumentasi teknis khusus organisasi "bagaimana cara menggunakan layanan mikro musim semi ke AKS?".
Kumpulan dokumen uji, pertanyaan, dan evaluator tanggapan.
Kumpulan kumpulan data uji / kombinasi desain yang akan dieksekusi oleh pelari uji.
Test Runner hanya dapat menjalankan bagian dari langkah -langkah di atas tergantung pada input. Misalnya:
Uji dapat didistribusikan di beberapa agen/mesin.
Penyimpanan hasil tes dan umpan balik pengguna. Hasil tes dan umpan balik pengguna harus merujuk set data dan desain uji. Dengan demikian, ini pada dasarnya adalah harness metadata repositori yang berisi definisi desain pohon/grafik, definisi set data uji, dan hasil uji berjalan.
Menghasilkan laporan. Laporan mungkin dalam format HTML dengan visualisasi. Format laporan yang mungkin:
Laporan dapat berisi tautan ke UI Web atau bahkan "Host" Web UI jika diimplementasikan sebagai aplikasi satu halaman (SPA) dengan, katakanlah, bereaksi atau vue.js/bootstrapvue
Para pihak yang berkontribusi pada set data harness, desain, dan uji. Anggota masyarakat dapat memainkan peran yang berbeda pada komponen yang berbeda.
--- bekerja dalam proses ---
Bagian ini menguraikan beberapa tugas (kasus penggunaan) untuk pengambilan generasi augmented dan pencarian secara umum.
Ukuran:
Contoh - Fungsi teknologi dalam perusahaan besar:
Untuk masing -masing di atas ada dimensi waktu - pembaruan tumpukan teknologi di bagian atas, rilis di bagian bawah. Lihat lansekap arsitektur TOGAF untuk visualisasi.
Dalam lingkungan seperti itu pengguna membutuhkan solusi pengambilan yang memungkinkan untuk mengambil dokumen khusus untuk posisi dan peran pengguna dalam perusahaan dan upaya yang ditugaskan. Misalnya pengembang Java yang bekerja, katakanlah rilis saat ini mungkin memerlukan informasi tentang Java 17. Jika pengembang yang sama ditugaskan untuk bekerja pada rilis di masa depan mereka mungkin memerlukan informasi tentang, katakanlah, Java 20. Ketika mereka bekerja dengan teknologi seperti Kubernetes dan Azure yang diketahui.
Ukuran:
Ukuran:
Todo. Menurut informasi industri menargetkan sejumlah besar dokumen - cocok dengan kasus penggunaan dokumen operasional
Todo. Mungkin lebih baik untuk sejumlah kecil dokumen (prosedur) - semuanya mungkin sesuai dengan memori dan pencarian dapat dilakukan pada grafik semantik. Dalam kasus database vektor, salah satu cara untuk membangun indeks adalah dengan menggunakan grafik - Hierarchical Navigable Small World (HNSW)
Todo. Mungkin cocok untuk kasus penggunaan dokumentasi teknis:
Proses ini akan menghasilkan sejumlah besar (ratusan) grafik/model yang relatif kecil (basis pengetahuan) dengan puluhan ribu dokumen.
Ruang desain untuk grafik jaringan saraf, kuliah bagian dari Stanford CS224W: ML dengan grafik, slide ↩