Trafilatura عبارة عن أداة Python ذات الحافة المتطورة وأداة سطر الأوامر مصممة لجمع النص على الويب وتبسيط عملية تحويل HTML الخام إلى بيانات منظمة وذات مغزى . ويشمل جميع مكونات الاكتشاف والمعالجة النصية اللازمة لأداء الزحف على الويب ، والتنزيلات ، والتجشير ، واستخراج النصوص الرئيسية والبيانات الوصفية والتعليقات. إنه يهدف إلى البقاء في متناول يدي ومعيار : لا يلزم وجود قاعدة بيانات ، يمكن تحويل الإخراج إلى تنسيقات شائعة الاستخدام.
يمكن أن يؤدي الانتقال من HTML Bulk إلى الأجزاء الأساسية إلى تخفيف العديد من المشكلات المتعلقة بجودة النص ، من خلال التركيز على المحتوى الفعلي ، وتجنب الضوضاء الناتجة عن العناصر المتكررة مثل الرؤوس والتذييلات وفهم البيانات والبيانات الوصفية مع معلومات محددة. يلفت المستخرج توازنًا بين الحد من الضوضاء (الدقة) بما في ذلك جميع الأجزاء الصالحة (استدعاء). إنه قوي وسريع بشكل معقول .
يتم استخدام Trafilatura على نطاق واسع ودمج في الآلاف من المشاريع من قبل شركات مثل Huggingface و IBM و Microsoft Research وكذلك مؤسسات مثل معهد ألين ، ستانفورد ، ومعهد طوكيو للتكنولوجيا ، وجامعة ميونيخ.
تزحف الويب المتقدم واكتشاف النص:
المعالجة الموازية للمدخلات عبر الإنترنت وغير المتصلة بالإنترنت:
استخراج قوي وقابل للتكوين للعناصر الرئيسية:
تنسيقات الإخراج المتعددة:
الوظائف الإضافية الاختيارية:
تم الحفاظ عليها بنشاط بدعم من مجتمع المصدر المفتوح:
تتفوق Trafilatura باستمرار على المكتبات الأخرى مفتوحة المصدر في معايير استخراج النص ، مما يعرض كفاءتها ودقتها في استخراج محتوى الويب. يحاول المستخرج تحقيق توازن بين الحد من الضوضاء بما في ذلك جميع الأجزاء الصالحة.
لمزيد من المعلومات ، راجع القسم القياسي وإعادة التقييم لتشغيل التقييم بأحدث البيانات والحزم.
البدء مع Trafilatura واضح ومباشر. لمزيد من المعلومات والأدلة التفصيلية ، تفضل بزيارة وثائق Trafilatura:
قائمة تشغيل YouTube مع دروس فيديو بعدة لغات:
يتم توزيع هذه الحزمة بموجب ترخيص Apache 2.0.
الإصدارات قبل V1.8.0 هي تحت رخصة GPLV3+.
مساهمات من جميع الأنواع موضع ترحيب. تفضل بزيارة الصفحة المساهمة لمزيد من المعلومات. يمكن تقديم تقارير الأخطاء على صفحة القضية المخصصة.
شكرا جزيلا للمساهمين الذين مددوا المستندات أو قدمت تقارير الأخطاء والميزات و bugfixes!
بدأ هذا العمل كمشروع الدكتوراه في مفترق طرق اللغويات و NLP ، كانت هذه الخبرة فعالة في تشكيل Trafilatura على مر السنين. تم إطلاقها في البداية لإنشاء قواعد بيانات نصية لأغراض البحث في أكاديمية برلين براندنبورغ للعلوم (وحدات DWDS و ZDL) ، لا تزال هذه الحزمة يتم الحفاظ عليها ولكن تطورها المستقبلي يعتمد على دعم المجتمع.
إذا كنت تقدر هذا البرنامج أو تعتمد عليه لمنتجك ، ففكر في رعايته والمساهمة في قاعدة الكود الخاصة به . سيساعد دعمك في الحفاظ على هذه الحزمة الشائعة وتعزيزها ، مما يضمن نموها ، ومتانة ، وإمكانية الوصول للمطورين والمستخدمين في جميع أنحاء العالم.
Trafilatura هي كلمة إيطالية لرسم الأسلاك ترمز إلى عملية التحسين والتحويل. إنها أيضًا الطريقة التي تتشكل بها أشكال المعكرونة.
تواصل عبر IA مستودع البرامج أو صفحة الاتصال للاستفسارات أو التعاون أو التعليقات. انظر أيضًا الشبكات الاجتماعية للحصول على آخر التحديثات.
يستخدم Trafilatura على نطاق واسع في المجال الأكاديمي ، وخاصة لاكتساب البيانات. إليكم كيفية الاستشهاد به:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}تسهم الإضافات المشتركة والحزم الإضافية التي تم تطويرها بشكل مشترك في حقل استخراج بيانات الويب وتحليله:
يمكن العثور على المشاركات المقابلة على أجزاء من اللغة.
مثير للإعجاب ، لقد وصلت إلى نهاية الصفحة: شكرًا لك على اهتمامك!