Trafilatura เป็น แพ็คเกจ Python ที่ทันสมัยและเครื่องมือบรรทัดคำสั่ง ที่ออกแบบมาเพื่อ รวบรวมข้อความบนเว็บและทำให้กระบวนการเปลี่ยน HTML ดิบเป็นข้อมูลที่มีโครงสร้างและมีความหมายง่ายขึ้น ซึ่งรวมถึงส่วนประกอบการค้นพบและการประมวลผลข้อความที่จำเป็นทั้งหมดเพื่อดำเนินการ รวบรวมข้อมูลเว็บการดาวน์โหลดการขูดและการสกัด ข้อความหลักเมตาและความคิดเห็น มันมีจุดมุ่งหมายที่จะอยู่ อย่างมีประโยชน์และเป็นโมดูล : ไม่จำเป็นต้องใช้ฐานข้อมูลเอาต์พุตสามารถแปลงเป็นรูปแบบที่ใช้กันทั่วไป
การเปลี่ยนจากกลุ่ม HTML เป็นส่วนสำคัญสามารถบรรเทาปัญหามากมายที่เกี่ยวข้องกับคุณภาพข้อความโดย มุ่งเน้นไปที่เนื้อหาจริง หลีกเลี่ยงเสียง ที่เกิดจากองค์ประกอบที่เกิดขึ้นซ้ำเช่นส่วนหัวและส่วนท้ายและโดย การทำความเข้าใจกับข้อมูลและข้อมูลเมตา ด้วยข้อมูลที่เลือก ตัวแยกจะสร้างความสมดุลระหว่างการ จำกัด เสียงรบกวน (ความแม่นยำ) และรวมถึงชิ้นส่วนที่ถูกต้องทั้งหมด (เรียกคืน) มัน แข็งแกร่งและรวดเร็วพอสมควร
Trafilatura มีการใช้กันอย่างแพร่หลายและรวมเข้ากับโครงการหลายพันโครงการโดย บริษัท ต่างๆเช่น Huggingface, IBM และ Microsoft Research รวมถึงสถาบันต่างๆเช่นสถาบัน Allen, Stanford, สถาบันเทคโนโลยีโตเกียวและมหาวิทยาลัยมิวนิค
การรวบรวมข้อมูลเว็บขั้นสูงและการค้นพบข้อความ:
การประมวลผลแบบขนานของอินพุตออนไลน์และออฟไลน์:
การแยกองค์ประกอบสำคัญที่แข็งแกร่งและกำหนดค่าได้:
รูปแบบเอาต์พุตหลายรูปแบบ:
Add-ons เสริม:
ได้รับการดูแลอย่างแข็งขันด้วยการสนับสนุนจากชุมชนโอเพ่นซอร์ส:
Trafilatura มีประสิทธิภาพสูงกว่าไลบรารีโอเพนซอร์ซอื่น ๆ อย่างต่อเนื่องในการเปรียบเทียบการสกัดข้อความแสดงประสิทธิภาพและความแม่นยำในการแยกเนื้อหาเว็บ ตัวแยกพยายามสร้างความสมดุลระหว่างการ จำกัด เสียงรบกวนและรวมถึงชิ้นส่วนที่ถูกต้องทั้งหมด
สำหรับข้อมูลเพิ่มเติมโปรดดูส่วนมาตรฐานและการประเมินผล readMe เพื่อเรียกใช้การประเมินผลด้วยข้อมูลและแพ็คเกจล่าสุด
การเริ่มต้นใช้งาน Trafilatura นั้นตรงไปตรงมา สำหรับข้อมูลเพิ่มเติมและคำแนะนำโดยละเอียดเยี่ยมชมเอกสารของ Trafilatura:
เพลย์ลิสต์ YouTube พร้อมบทเรียนวิดีโอในหลายภาษา:
แพ็คเกจนี้แจกจ่ายภายใต้ใบอนุญาต Apache 2.0
เวอร์ชันก่อนหน้า v1.8.0 อยู่ภายใต้ใบอนุญาต GPLV3+
ยินดีต้อนรับทุกประเภท เยี่ยมชมหน้าการบริจาคสำหรับข้อมูลเพิ่มเติม สามารถยื่นรายงานข้อผิดพลาดในหน้าปัญหาเฉพาะ
ขอบคุณมากสำหรับผู้มีส่วนร่วมที่ขยายเอกสารหรือส่งรายงานข้อผิดพลาดคุณสมบัติและการแก้ไขข้อผิดพลาด!
งานนี้เริ่มต้นจากโครงการระดับปริญญาเอกที่ทางแยกของภาษาศาสตร์และ NLP ความเชี่ยวชาญนี้เป็นเครื่องมือสำคัญในการสร้างทราฟิทูราในช่วงหลายปีที่ผ่านมา เปิดตัวครั้งแรกเพื่อสร้างฐานข้อมูลข้อความเพื่อวัตถุประสงค์ในการวิจัยที่ Berlin-Brandenburg Academy of Sciences (หน่วย DWDS และ ZDL) แพ็คเกจนี้ยังคงได้รับการดูแลรักษา แต่การพัฒนาในอนาคตขึ้นอยู่กับการสนับสนุนชุมชน
หากคุณให้ความสำคัญกับซอฟต์แวร์นี้หรือขึ้นอยู่กับผลิตภัณฑ์ของคุณให้พิจารณาสนับสนุนและสนับสนุน codebase การสนับสนุนของคุณจะช่วยรักษาและปรับปรุงแพ็คเกจยอดนิยมนี้เพื่อให้มั่นใจว่าการเติบโตความแข็งแกร่งและการเข้าถึงสำหรับนักพัฒนาและผู้ใช้ทั่วโลก
Trafilatura เป็นคำภาษาอิตาลีสำหรับการวาดลวดเป็นสัญลักษณ์ของกระบวนการปรับแต่งและการแปลง นอกจากนี้ยังเป็นวิธีที่รูปร่างของพาสต้าเกิดขึ้น
ติดต่อผ่าน IA ที่เก็บซอฟต์แวร์หรือหน้าติดต่อเพื่อสอบถามข้อมูลความร่วมมือหรือข้อเสนอแนะ ดูเพิ่มเติมเครือข่ายสังคมออนไลน์สำหรับการอัปเดตล่าสุด
Trafilatura มีการใช้กันอย่างแพร่หลายในโดเมนการศึกษาส่วนใหญ่สำหรับการเก็บข้อมูล นี่คือวิธีการอ้างอิง:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}ปลั๊กอินที่พัฒนาร่วมกันและแพ็คเกจเพิ่มเติมยังมีส่วนร่วมในการแยกข้อมูลและการวิเคราะห์ข้อมูลเว็บ:
โพสต์ที่เกี่ยวข้องสามารถพบได้ในบิตของภาษา
น่าประทับใจคุณมาถึงจุดสิ้นสุดของหน้า: ขอบคุณสำหรับความสนใจของคุณ!