ดาวน์โหลด doc rag harness - doc rag harness Source Download

doc rag harness

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การสืบค้นเอกสาร Generation Generation (RAG)

พื้นที่ของการเพิ่มการเรียกคืนการพัฒนาอย่างรวดเร็ว มีหลายวิธีในการใช้การดึงข้อมูล บางคนใช้ฐานข้อมูล Embeddings และ Vector ซึ่งเป็นกราฟความหมายอื่น ๆ ดังนั้นจึงมีการออกแบบที่แตกต่างกันและยังมีงานที่แตกต่างกันและเป็นสิ่งสำคัญที่จะจับคู่การออกแบบกับงาน ¹

เป้าหมายของสายรัดนี้เพื่อให้คำจำกัดความการรวบรวม, abstractions และการสร้างบล็อกเพื่อช่วยในการทำความเข้าใจการเปรียบเทียบการเปรียบเทียบและการเลือกการออกแบบการดึงข้อมูลที่เฉพาะเจาะจงซึ่งตรงกับงานที่ดีที่สุด

สายรัดมีจุดประสงค์เพื่อให้ค่อนข้างคล้ายกับเทคโนโลยีความเข้ากันได้ของเทคโนโลยี + เทคโนโลยี (TCK) - เพื่อให้:

JAVA/EMF ECORE MODEL/API สำหรับการจัดเก็บเอกสารและการดึงข้อมูลรวมถึง "อินเทอร์เฟซผู้ให้บริการออกแบบ" ที่จะดำเนินการโดยการออกแบบผู้สมัคร
กรอบการทดสอบสำหรับประเมินว่าการออกแบบที่แตกต่างกันทำงานอย่างไร

Java ได้รับเลือกให้เป็นเทคโนโลยีที่โดดเด่นในโลกขององค์กรที่มีพลังการแสดงออกที่หลากหลายของภาษาและระบบนิเวศที่เป็นผู้ใหญ่ขนาดใหญ่ EMF ecore ได้รับเลือกเนื่องจากมีความสามารถ:

โหลด/จัดเก็บโมเดลจาก/ถึง Yaml, XMI และไฟล์ไบนารีรวมถึงฐานข้อมูล
สร้างเอกสาร HTML จากรุ่นและ Metamodels
การสนับสนุนเครื่องมือสำหรับการสร้างผู้ชมและบรรณาธิการ - ต้นไม้แผนภาพข้อความ; Eclipse ide และเว็บเบราว์เซอร์

หน้านี้ให้คำแนะนำเกี่ยวกับแนวคิดหลักและสรุปการใช้งานหลายกรณี (งาน) และการออกแบบ (ทางเลือก)

แนวคิด

แผนภาพด้านล่างแสดงโครงสร้างและบริบทของสายรัด:

ภาพรวม

ส่วนต่อไปนี้ให้คำจำกัดความและโครงร่างงาน/มิติการออกแบบสำหรับแต่ละคำจำกัดความ Metamodel รวบรวมคำจำกัดความบางอย่างเป็นองค์ประกอบของแบบจำลองและอธิบายให้เป็นคุณสมบัติการดำเนินงานและคลาสย่อย

เอกสาร

เอกสารเป็นตัวแทนที่ระลึกถึงความคิดหรือข้อมูล สำหรับวัตถุประสงค์ของเอกสารสายรัดนี้:

ถูกเก็บไว้ในแหล่งข้อมูล/ที่เก็บ (เช่นหนังสือในห้องสมุด)
สามารถจัดหมวดหมู่และหมวดหมู่สามารถซ้อนกันได้ (เช่นประเภทหนังสือ - นิยาย / ไซไฟ)
สามารถมีโครงสร้างภายใน (เช่นปริมาณ, บท, ส่วน, วรรค, คำ)
สามารถมีเนื้อหาประเภทต่าง ๆ - ข้อความรูปภาพวิดีโอเสียงโครงสร้างเช่นรายการและตาราง
สามารถอ้างอิงเอกสารอื่น ๆ หรือหน่วยงานภายนอก

การใช้งาน "ทางกายภาพ":

ไฟล์ข้อความ
PDF ใน Java สามารถโหลดได้โดยใช้ apache pdfbox
ผลลัพธ์ของ OCR พูด JSON
เอกสาร MS Office - ใน Java สามารถโหลดได้ด้วย Apache Poi ไฟล์ MS Excel สามารถโหลดเป็นรุ่น ecore กับ Nasdanika Excel Model
เอกสาร/หน้า HTML (ประเภทย่อยของข้อความ)

การใช้งาน "ตรรกะ":

สำหรับ PDF/OCR - การสแกนเอกสารทางธุรกิจ ตัวอย่างเช่นแฟกซ์ของข้อความที่รวดเร็ว ในกรณีนี้:
- ส่วนหัวและส่วนท้ายที่เพิ่มโดยแฟกซ์อาจถูกลบออกเป็นไม่เกี่ยวข้อง
- ร่างกายหน้าอาจถูกแยกวิเคราะห์เป็นโครงสร้างเฉพาะที่รวดเร็วเช่น MT 700
- Embeddings อาจถูกสร้างขึ้นสำหรับร่างกายหรือย่อหน้าหรือข้อสำหรับองค์ประกอบบางอย่างตัวเลขประโยคอาจถูกแยกออกจากข้อความ ค่อนข้างคล้ายกับบทความ Wikipedia ที่ฝังอยู่ซึ่งการคำนวณแบบฝังจะถูกคำนวณสำหรับข้อความที่ไม่รวมส่วนหัว
สำหรับ HTML - หน้าเอกสาร พูดว่าภาษา Spring Expression (Spel) ในส่วนหัวกรณีนี้การนำทางด้านซ้ายแถบด้านขวาและส่วนท้ายอาจถูกทิ้งว่าไม่เกี่ยวข้องหรือแยกวิเคราะห์ลงในคุณสมบัติเอกสารเชิงตรรกะที่เกี่ยวข้องซึ่งอาจถูกละเว้น Breadcrumb สามารถใช้สำหรับการจัดหมวดหมู่
สำหรับไฟล์ข้อความ - ขึ้นอยู่กับประเภทเนื้อหา เช่น pom.xml สามารถโหลดลงในโมเดลวัตถุโครงการไฟล์ Java สามารถโหลดลงในแผนผังไวยากรณ์หรือกราฟที่มีการอ้างอิงประเภท/ฟิลด์/วิธีการแก้ไข

ตัวโหลดเอกสาร

แปลงการแสดงเอกสารหนึ่งเป็นอีกครั้ง เช่น PDF หรือ OCR JSON ไปยังโมเดลวัตถุของข้อความ Swift MT 700

แหล่งที่มาของเอกสาร

การจัดเก็บเอกสารในรูปแบบหรือรูปแบบเฉพาะ เช่นระบบไฟล์พร้อมเอกสาร PDF แหล่งที่มาของเอกสารอาจถูกแปลง/ดัดแปลง หนึ่งในตัวอย่างของแหล่งเอกสารคือการกระทำ GIT โมเดล Nasdanika Gitlab สามารถใช้เพื่อใช้การโหลดเอกสารจาก Gitlab

ที่เก็บเอกสาร

คอลเลกชันของเอกสารที่ให้การจัดเก็บและฟังก์ชั่นการดึงข้อมูล อินเทอร์เฟซหลักของ DPI (ดูด้านล่าง) ที่จะดำเนินการโดยการออกแบบ

เมื่อจัดเก็บเอกสารที่เก็บอาจทำงานเช่นการจดจำภาพ

อาจมีหลายวิธีการดึงข้อมูลเช่น:

การค้นหาคำหลัก
การค้นหาความหมาย
การสรุป - การค้นหาและสรุปผลลัพธ์ X Top

ที่เก็บสามารถประกอบจากที่เก็บข้อมูลอื่น ๆ และตัวโหลดข้อมูล เช่นที่เก็บ PDF อาจประกอบจาก PDF -> ตัวโหลดข้อมูลโมเดลวัตถุและที่เก็บโมเดลวัตถุ นอกจากนี้ที่เก็บเอกสารอาจไม่จำเป็นต้องจัดเก็บ/สร้างเอกสารแหล่งที่มา - พวกเขาอาจอ้างอิงและดึงข้อมูลจากร้านเอกสาร - ต้นฉบับที่มีการโหลดเอกสารหรือที่เก็บเอกสารเฉพาะที่เก็บ

อาจเป็นไปได้ที่จะเขียนการออกแบบที่แตกต่างกันของที่เก็บ ตัวอย่างเช่นที่เก็บข้อมูลที่รองรับการค้นหาคำหลักและที่เก็บซึ่งรองรับการค้นหาความหมาย ในกรณีนี้ผลลัพธ์การสืบค้นที่เก็บคำหลักจะเป็นสิ่งจำเป็น แต่ไม่เพียงพอและอาจใช้เพื่อตรวจสอบผลลัพธ์ของพื้นที่เก็บข้อมูลการค้นหาความหมาย

ผู้ใช้ / เว็บ UI

ผู้ใช้สอบถามที่เก็บเอกสารผ่าน Web UI พวกเขาสามารถทำได้เป็นส่วนหนึ่งของฟังก์ชั่นงานของพวกเขาหรือเพื่อประเมินฟังก์ชั่นการสืบค้นของการออกแบบที่เฉพาะเจาะจงและให้ข้อเสนอแนะ โมเดลทั้งสองนี้อาจรวมกัน - ผู้ใช้อาจเลือกที่จะใช้เฉพาะเอ็นจิ้น/การออกแบบการสืบค้น "แชมป์" เช่นการค้นหาคำหลักหรือเลือกเครื่องยนต์/การออกแบบ "Challenger"

เว็บ UI อาจจับบริบทผู้ใช้เช่นบทบาท/ตำแหน่งในองค์กรและส่งผ่านไปยังการออกแบบเป็นส่วนหนึ่งของการสืบค้น

ผู้สนับสนุน

บุคคลที่สนใจในการปรับปรุงคุณภาพของการทำงานของผู้ใช้เช่นการเพิ่มผลผลิตโดยใช้การสร้างเอกสารการเพิ่มการดึงเอกสาร

สปอนเซอร์จำเป็นต้องสร้างความสมดุลให้กับเกณฑ์หลายเกณฑ์เพื่อลด "ฟังก์ชั่นการสูญเสีย":

ความเร็วในการดึง
ความแม่นยำ
ความสมบูรณ์
ค่าใช้จ่ายเช่นค่าใช้จ่ายค่าใช้จ่ายใบอนุญาตเป็นต้น

ออกแบบ

การออกแบบคือการสร้างอินสแตนซ์/ศูนย์รวมของเทคโนโลยีและพารามิเตอร์การกำหนดค่า

มิติการออกแบบ

จุดแปรผันการออกแบบ - สิ่งที่สามารถเปลี่ยนแปลงได้ในศูนย์รวม/อินสแตนซ์ที่แตกต่างกันและแหล่งที่มาของค่า ตัวอย่างเช่น:

จำนวนขนาดการฝัง
รุ่น ML
อุณหภูมิแบบจำลอง
ฐานข้อมูลเวกเตอร์
เวอร์ชันฐานข้อมูลเวกเตอร์

ขนาดการออกแบบสามารถสร้างต้นไม้หรือกราฟกำกับโดยตรง เช่นเวอร์ชันฐานข้อมูลเวกเตอร์จะเป็นโหนดภายใต้โหนดสำหรับฐานข้อมูลเวกเตอร์เฉพาะ

อินเทอร์เฟซผู้ให้บริการออกแบบ

อินเทอร์เฟซผู้ให้บริการออกแบบ (DPI) บทสรุปสายรัดจากการใช้งานการออกแบบเฉพาะ มันเป็นชุดของอินเทอร์เฟซและคลาสนามธรรมที่การออกแบบต้องใช้ EG อินเทอร์เฟซ DocumentRepository DPI ถูกกำหนดไว้ใน Java/Ecore และอาจให้อะแดปเตอร์กับเทคโนโลยีที่แตกต่างกัน โดยเฉพาะอย่างยิ่ง:

REST API
การเชื่อมโยงภาษาและนักวิ่งที่ใช้ส่วนประกอบ REST API และการเรียกใช้ส่วนประกอบที่ใช้อินเทอร์เฟซการเชื่อมโยงภาษา ตัวอย่างเช่นการผูก python สามารถนำไปใช้กับขวดได้
การผูกเฟรมเวิร์ก/การใช้งานภายใต้การผูกภาษาหรือโดยตรงภายใต้ DPI ใน Java เช่นภายใต้การผูกมัด Python อาจมีการผูกมัด langchain และภายใต้ Java อาจมีการผูกมัด OpenNLP

งาน

ภารกิจคือการใช้การดึงเอกสารเฉพาะ ตัวอย่างเช่นการค้นหาความหมายในเอกสารทางเทคนิคเฉพาะองค์กร "ฉันจะปรับใช้ Microservice Spring กับ AKS ได้อย่างไร"

ชุดข้อมูลทดสอบ

การรวบรวมเอกสารทดสอบการสืบค้นและผู้ประเมินผลการตอบสนอง

อินพุตนักวิ่ง

การรวบรวมชุดข้อมูลการทดสอบ / ชุดค่าผสมที่จะดำเนินการโดยนักวิ่งทดสอบ

นักวิ่งทดสอบ

อ่านอินพุต
ชุดข้อมูลทดสอบและการออกแบบอินสแตนซ์อินสแตนซ์
โหลดเอกสารจากชุดทดสอบที่ตั้งค่าไว้ในการออกแบบ
ดำเนินการค้นหาและประเมินการตอบสนอง ผู้ประเมินผลการตอบสนองอาจให้ข้อเสนอแนะเกี่ยวกับการออกแบบ
จัดเก็บผลการทดสอบสำหรับการวิเคราะห์เพิ่มเติมและการสร้างรายงาน

นักวิ่งทดสอบอาจดำเนินการเฉพาะส่วนของขั้นตอนข้างต้นขึ้นอยู่กับอินพุต ตัวอย่างเช่น:

อาจมีการออกแบบที่มีเอกสารที่โหลดไว้ล่วงหน้าแล้วและนักวิ่งทดสอบจะดำเนินการเฉพาะส่วนการสืบค้น
หรือชุดข้อมูลการทดสอบอาจมีเฉพาะเอกสาร แต่ไม่ใช่การสืบค้นและผู้ประเมินผลการตอบกลับเนื่องจากผู้ใช้จะต้องทำการสืบค้นและการตอบกลับผ่านเว็บ UI
Test Runner อาจโหลดเอกสารไปยังการออกแบบและบันทึกเป็นการออกแบบใหม่ เช่นสร้างคอนเทนเนอร์จากรูปภาพโหลดเอกสารแล้วหยุดคอนเทนเนอร์และสร้างภาพจากคอนเทนเนอร์
ในทำนองเดียวกันนักวิ่งทดสอบอาจใช้ชุดข้อมูลทดสอบรวมเข้ากับผู้ใช้ให้ข้อเสนอแนะและสร้างและสร้างชุดข้อมูลทดสอบใหม่

การทดสอบการทำงานสามารถแจกจ่ายผ่านตัวแทน/เครื่องหลายเครื่อง

ผลการทดสอบและข้อเสนอแนะของผู้ใช้

การจัดเก็บผลการทดสอบและความคิดเห็นของผู้ใช้ ผลการทดสอบและข้อเสนอแนะของผู้ใช้จะอ้างอิงชุดข้อมูลทดสอบและการออกแบบ ด้วยเหตุนี้จึงเป็นที่เก็บข้อมูลเมตาของสายรัดที่มีต้นไม้/กราฟนิยามการออกแบบคำจำกัดความชุดข้อมูลการทดสอบและผลลัพธ์ของการทดสอบ

รายงานเครื่องกำเนิดไฟฟ้า

สร้างรายงาน รายงานอาจอยู่ในรูปแบบ HTML พร้อมการสร้างภาพข้อมูล รูปแบบรายงานที่เป็นไปได้:

แผงด้านซ้ายพร้อมต้นไม้ออกแบบต้นไม้งานและชุดข้อมูลทดสอบสำหรับงาน นอกจากนี้ยังอาจรวมถึง "Tech Stack Tree" - บล็อกการออกแบบที่จัดหมวดหมู่ ตัวอย่างเช่นฐานข้อมูล Tree of Vector รุ่นและการกำหนดค่าของพวกเขา หากแผงด้านซ้ายมีเสียงดังเกินไปรายการบางรายการสามารถย้ายไปที่แถบการนำทาง
แผงเนื้อหา - เอกสารประกอบสำหรับรายการที่เลือก เช่น
- โฮมเพจ - บทสรุปของการทดสอบที่ดำเนินการ: ตารางที่สามารถเรียงลำดับได้พร้อมการออกแบบ/ทดสอบการเปลี่ยนรูปแบบ (สำหรับพื้นที่ค่อนข้างเล็ก) การสร้างภาพรวมเช่น echarts 3D scatter นอกจากนี้ยังอาจมีตัวช่วยสร้างการออกแบบเพื่อสร้างการออกแบบโดยการตอบคำถามและเลือกการออกแบบที่ทดสอบซึ่งเหมาะกับคำตอบที่ดีที่สุด
- หน้าออกแบบ - การกำหนดค่าการทดสอบและผลลัพธ์ - ตารางการสร้างภาพข้อมูล
- หน้างาน - คำอธิบายการทดสอบการออกแบบการสร้างภาพข้อมูล มันอาจโฮสต์การรวมเว็บ UI ซึ่งรวบรวมคำตอบจากการออกแบบทั้งหมดสำหรับงานนี้และช่วยให้ผู้ใช้สามารถเปรียบเทียบการตอบสนองจากการออกแบบทางเลือก ตัวเลือกหนึ่งในการเปรียบเทียบคือการเปรียบเทียบแบบคู่อาจเป็นไปได้โดยไม่ต้องมีการเปิดเผยซึ่งการออกแบบการตอบสนองที่กำหนดนั้นมาจาก
- Building Block (เช่นฐานข้อมูลเวกเตอร์, เวอร์ชัน, การกำหนดค่า) - คำอธิบาย, การออกแบบที่ใช้

รายงานอาจมีลิงก์ไปยังเว็บ UI หรือแม้กระทั่ง "โฮสต์" เว็บ UI หากมีการใช้งานเป็นแอปพลิเคชันหน้าเดียว (SPA) ด้วยพูด, ตอบสนองหรือ vue.js/bootstrapvue

ชุมชน

ฝ่ายที่มีส่วนร่วมในการควบคุมการออกแบบและชุดข้อมูลทดสอบ สมาชิกชุมชนอาจมีบทบาทที่แตกต่างกันในส่วนประกอบที่แตกต่างกัน

--- ทำงานระหว่างดำเนินการ ---

งาน

ส่วนนี้สรุปงานหลายอย่าง (กรณีใช้) สำหรับการสร้างการเพิ่มการสร้างและการค้นหาโดยทั่วไป

ขนาด:

จำนวนเอกสาร
จำนวนผู้ใช้
ความถี่ของการเปลี่ยนแปลง
ความเป็นส่วนตัว
ความเสี่ยง - ต้นทุนข้อผิดพลาด

เอกสารทางเทคนิค

ตัวอย่าง - ฟังก์ชั่นเทคโนโลยีในองค์กรขนาดใหญ่:

หลายระดับ:
- องค์กร, Binds ตัวเลือกเทคโนโลยีทั่วทั้งองค์กร (เช่น Java/Spring, Maven Components) ให้การสร้างบล็อกที่ใช้ร่วมกันทั่วทั้งองค์กร (เช่นห้องสมุดของส่วนประกอบ bootstrap) และเทคโนโลยีอื่น ๆ (เช่นท่อสร้าง)
- เซ็กเมนต์ - ตัวเลือกเทคโนโลยี NARROWS เช่นเวอร์ชันของ Java เพิ่มวิธีการเฉพาะส่วนของการทำสิ่งต่าง ๆ ตามแนวทางขององค์กร (ซึ่งสร้างขึ้นบนแนวทางและเทคโนโลยีและเอกสารด้านเทคโนโลยีของผู้ขาย) อาจแนะนำหน่วยการสร้างระดับเซ็กเมนต์
- ความสามารถ/ทีม - ตัวเลือกเทคโนโลยีที่แคบยิ่งขึ้นและปรับแต่งวิธีการใช้งาน อาจแนะนำความสามารถ/การสร้างระดับทีมเช่นห้องสมุดวิดเจ็ต

สำหรับแต่ละข้างต้นมีมิติเวลา - การอัปเดตสแต็คเทคด้านบนจะวางจำหน่ายที่ด้านล่าง ดูภูมิทัศน์สถาปัตยกรรม Togaf สำหรับการสร้างภาพข้อมูล

ในสภาพแวดล้อมเช่นนี้ผู้ใช้ต้องการโซลูชันการดึงซึ่งช่วยให้สามารถดึงเอกสารเฉพาะไปยังตำแหน่งและบทบาทของผู้ใช้ในองค์กรและความพยายามที่พวกเขาได้รับมอบหมาย เช่นนักพัฒนา Java ที่ทำงานอยู่กล่าวว่าการเปิดตัวในปัจจุบันอาจต้องการข้อมูลเกี่ยวกับ Java 17 หากนักพัฒนาเดียวกันได้รับมอบหมายให้ทำงานในการเปิดตัวในอนาคตพวกเขาอาจต้องการข้อมูลเกี่ยวกับพูด Java 20 เมื่อพวกเขาทำงานกับเทคโนโลยีเช่น Kubernetes และ Azure Aks

จำนวนเอกสาร: หมื่นนับหมื่น
จำนวนผู้ใช้: หลายร้อยถึงพัน
ความถี่ของการเปลี่ยนแปลง: ต่ำ (เช่นรายเดือน) ถึงปานกลาง (หลายครั้งต่อเดือน)
ความเป็นส่วนตัว: ภายใน
ความเสี่ยง: ต่ำ

ขั้นตอน

ขนาด:

จำนวนเอกสาร: ต่ำหลายพัน
จำนวนผู้ใช้: หลายร้อยถึงพัน
ความถี่ของการเปลี่ยนแปลง: ต่ำ (เช่นรายเดือน)
ความเป็นส่วนตัว: ภายใน จำกัด และเป็นความลับ
ความเสี่ยง: ปานกลางถึงสูง

เอกสารการดำเนินงาน

ขนาด:

จำนวนเอกสาร: อาจเป็นล้าน
จำนวนผู้ใช้: หลายร้อยถึงพัน
ความถี่ของการเปลี่ยนแปลง: สูง (รายวัน)
ความเป็นส่วนตัว: เป็นความลับข้อมูลส่วนบุคคล - PII, PHI, PCI
ความเสี่ยง: สูง

การออกแบบ

EMBEDDINGS ฐานข้อมูลเวกเตอร์ LLM's

สิ่งที่ต้องทำ จากข้อมูลอุตสาหกรรมมีเป้าหมายเป็นเอกสารจำนวนมาก - ตรงกับเอกสารการใช้งาน

กราฟ

สิ่งที่ต้องทำ อาจจะดีกว่าสำหรับเอกสารจำนวนน้อย (ขั้นตอน) - ทั้งหมดอาจพอดีกับหน่วยความจำและการค้นหาสามารถดำเนินการบนกราฟความหมาย ในกรณีฐานข้อมูลเวกเตอร์วิธีหนึ่งในการสร้างดัชนีคือการใช้กราฟ - โลกขนาดเล็กนำทางแบบลำดับชั้น (HNSW)

กราฟ polymorphic

สิ่งที่ต้องทำ อาจเหมาะสมสำหรับกรณีการใช้เอกสารทางเทคนิค:

องค์กรสร้างกราฟความรู้ (โมเดล) สำหรับตัวเลือกเทคโนโลยีขององค์กร อาจมีหลายรุ่น - พื้นฐานการเผยแพร่ในอนาคต
กลุ่มใช้กราฟ/โมเดลขององค์กรและปรับแต่ง - แนวคิดที่คล้ายกับการสืบทอดในภาษาที่มุ่งเน้นวัตถุเช่น Java และยังคล้ายกับเลเยอร์ใน Docker
ความสามารถ/ทีมอาจนำไปอีก

กระบวนการนี้จะส่งผลให้กราฟ/โมเดลขนาดเล็กจำนวนมาก (หลายร้อย) (ฐานความรู้) มีเอกสารนับหมื่น