Jina AI ได้เปิดตัว Reader-LM ซึ่งเป็นโมเดลภาษาน้ำหนักเบาที่ออกแบบมาเพื่อแปลง HTML ให้เป็น Markdown ที่สะอาดโดยเฉพาะ สามารถลบเนื้อหาที่ยุ่งเหยิงออกจากหน้าเว็บ เช่น โฆษณาและสคริปต์ได้อย่างมีประสิทธิภาพ เพื่อสร้างไฟล์ Markdown ที่มีโครงสร้างชัดเจน โดยไม่ต้องใช้นิพจน์ทั่วไปที่ซับซ้อนหรือการดำเนินการด้วยตนเอง Reader-LM มีจำหน่ายสองเวอร์ชัน: Reader-LM-0.5B และ Reader-LM-1.5B ซึ่งทั้งสองเวอร์ชันได้รับการปรับปรุงเพื่อให้ทำงานได้อย่างมีประสิทธิภาพแม้ในสภาพแวดล้อมที่จำกัดทรัพยากร และรองรับบริบทได้ถึงโทเค็น 256K
Jina AI ได้เปิดตัวโมเดลภาษาขนาดเล็กสองโมเดลที่ออกแบบมาเพื่อแปลงเนื้อหา HTML ต้นฉบับให้เป็นรูปแบบ Markdown ที่สะอาดตาและเรียบร้อยโดยเฉพาะ ช่วยให้เราสามารถกำจัดการประมวลผลข้อมูลหน้าเว็บที่น่าเบื่อออกไปได้
จุดเด่นที่สุดของโมเดลนี้ที่เรียกว่า Reader-LM คือสามารถแปลงเนื้อหาเว็บเป็นไฟล์ Markdown ได้อย่างรวดเร็วและมีประสิทธิภาพ

ข้อดีของการใช้คือคุณไม่จำเป็นต้องพึ่งพากฎที่ซับซ้อนหรือนิพจน์ทั่วไปที่ลำบากอีกต่อไป โมเดลเหล่านี้ลบเนื้อหาที่ยุ่งเหยิงออกจากหน้าเว็บ เช่น โฆษณา สคริปต์ และแถบนำทางอย่างชาญฉลาดและโดยอัตโนมัติ และนำเสนอรูปแบบ Markdown ที่ชัดเจนและเป็นระเบียบในที่สุด
Reader-LM มีสองรุ่นที่มีพารามิเตอร์ที่แตกต่างกัน ได้แก่ Reader-LM-0.5B และ Reader-LM-1.5B แม้ว่าจำนวนพารามิเตอร์ของทั้งสองรุ่นนี้จะมีไม่มากนัก แต่ก็ได้รับการปรับให้เหมาะสมสำหรับงานแปลง HTML เป็น Markdown ผลลัพธ์ที่ได้นั้นน่าประหลาดใจและประสิทธิภาพก็เหนือกว่าโมเดลภาษาขนาดใหญ่จำนวนมาก

ด้วยการออกแบบที่กะทัดรัด โมเดลเหล่านี้จึงสามารถทำงานได้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่มีทรัพยากรจำกัด สิ่งที่น่ายกย่องยิ่งกว่านั้นคือ Reader-LM ไม่เพียงแต่รองรับหลายภาษาเท่านั้น แต่ยังสามารถจัดการข้อมูลบริบทได้มากถึง 256,000 โทเค็น ทำให้สามารถจัดการแม้แต่ไฟล์ HTML ที่ซับซ้อนได้อย่างง่ายดาย
แตกต่างจากวิธีการทั่วไปที่ต้องอาศัยนิพจน์ทั่วไปหรือการตั้งค่าด้วยตนเอง Reader-LM มอบโซลูชันแบบครบวงจรที่จะล้างข้อมูล HTML และแยกข้อมูลสำคัญโดยอัตโนมัติ

ผ่านการทดสอบเปรียบเทียบกับโมเดลขนาดใหญ่ เช่น GPT-4 และ Gemini ทำให้ Reader-LM แสดงให้เห็นประสิทธิภาพที่ยอดเยี่ยม โดยเฉพาะอย่างยิ่งในแง่ของการอนุรักษ์โครงสร้างและการใช้ไวยากรณ์ Markdown Reader-LM-1.5B ทำงานได้ดีเป็นพิเศษในตัวบ่งชี้ต่างๆ โดยมีคะแนน ROUGE-L อยู่ที่ 0.72 ซึ่งแสดงถึงความแม่นยำสูงในการสร้างเนื้อหา และอัตราข้อผิดพลาดยังต่ำกว่าผลิตภัณฑ์ที่คล้ายคลึงกันอย่างมากอีกด้วย
เนื่องจากการออกแบบที่กะทัดรัดของ Reader-LM จึงเบากว่าในแง่ของการใช้ทรัพยากรฮาร์ดแวร์ โดยเฉพาะรุ่น 0.5B ซึ่งสามารถทำงานได้อย่างราบรื่นในสภาพแวดล้อมที่มีการกำหนดค่าต่ำ เช่น Google Colab แม้จะมีขนาดเล็ก แต่ Reader-LM ยังคงมีความสามารถในการประมวลผลบริบทที่ยาวนานและสามารถประมวลผลเนื้อหาเว็บขนาดใหญ่และซับซ้อนได้อย่างมีประสิทธิภาพโดยไม่กระทบต่อประสิทธิภาพการทำงาน

ในแง่ของการฝึกอบรม Reader-LM ใช้กระบวนการแบบหลายขั้นตอนและมุ่งเน้นไปที่การแยกเนื้อหา Markdown จาก HTML ต้นฉบับที่มีเสียงดัง
กระบวนการฝึกอบรมประกอบด้วยการจับคู่หน้าเว็บจริงและข้อมูลสังเคราะห์จำนวนมาก เพื่อให้มั่นใจในประสิทธิภาพและความแม่นยำของแบบจำลอง หลังจากการออกแบบการฝึกอบรมสองขั้นตอนอย่างระมัดระวัง Reader-LM ค่อยๆ ปรับปรุงความสามารถในการประมวลผลไฟล์ HTML ที่ซับซ้อน และหลีกเลี่ยงปัญหาการสร้างซ้ำได้อย่างมีประสิทธิภาพ
ข้อมูลเบื้องต้นอย่างเป็นทางการ: https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/
โดยรวมแล้ว Reader-LM มอบโซลูชันที่มีประสิทธิภาพ สะดวก และแม่นยำสำหรับการแปลง HTML เป็น Markdown การออกแบบที่มีน้ำหนักเบาช่วยให้ทำงานในสภาพแวดล้อมต่างๆ ได้อย่างง่ายดาย ทำให้เป็นตัวเลือกที่เหมาะสำหรับการประมวลผลข้อมูลหน้าเว็บ สำหรับข้อมูลเพิ่มเติม กรุณาเยี่ยมชมลิงค์แนะนำอย่างเป็นทางการ