AutopDftagger هي أداة Python مصممة لتنظيم المكتب المنزلي الفعال ، مع التركيز على رقمنة وتنظيم الوثائق الرقمية والورق. من خلال أتمتة وضع علامات ملفات PDF ، بما في ذلك المستندات الغنية بالصور والمسح بجودة مختلفة ، فإنه يهدف إلى تبسيط تنظيم المحفوظات الرقمية.
في العصر الرقمي المتقدم ، يتم الآن تسليم العديد من المستندات رقميًا ، ومع ذلك لا تزال المستندات المهمة في كثير من الأحيان تصل في شكل ورقي. بالتطلع نحو مستقبل رقمي ، يصبح توحيد هذه المستندات في أرشيف رقمي موحد قيمة بشكل متزايد. جعل المسح البسيط باستخدام كاميرات الهواتف الذكية هذا العملي. ومع ذلك ، فإن موثوقية تقنيات التعرف الضوئي على الحروف القائمة وقدرتها المحدودة على فهرسة المحتوى غير النصي الفعال مثل الرسومات أو الصور تعوق بحث هذه المستندات. يهدف AutoPdftagger إلى سد هذه الفجوة من خلال تقديم تحليل بمساعدة AI وتنظيم ملفات PDF ، وتعزيز قابلية البحث والتنظيم بمستوى من الدقة مماثلة للجهد البشري.
في الوقت الحالي ، يوجد نموذج أولي وظيفي في شكل برنامج طرفي مع وحدة بيثون ، والتي توضح وظيفتها وقد حققت بالفعل نتائج رائعة بالنسبة لي. بالنسبة للتطبيق الأوسع ، من المؤكد أن العديد من التحسينات التفصيلية ضرورية ، خاصة في الاختبار ، وتحسين التحسين ، ومعالجة الأخطاء والتوثيق.
إذا وجدت هذه الأداة مفيدة ولديك أفكار لتحسينها ، فلا تتردد في المساهمة. على الرغم من أنني لست مبرمجًا بدوام كامل ولا أشعر بالاحتراف على الإطلاق ، إلا أن أي اقتراحات أو تحسينات مرحب بها. إرسال تقارير الأخطاء أو طلبات الميزات أو أي ملاحظات أخرى. شكرا على التوقف!
$ pip install git+https://github.com/Uli-Z/autoPDFtaggerقم بإنشاء ملف التكوين وحفظه إلى ~/.autopdftagger.conf :
; Configuration for autoPDFtagger
[DEFAULT]
language = {YOUR LANGUAGE}
[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}البرنامج منظم بشكل أساسي على النحو التالي:
file analysis )text analysis )image analysis )tag analysis )ملاحظة: بشكل أساسي ، (تقريبًا) يمكن دمج جميع الخيارات. ومع ذلك ، تم إصلاح ترتيب الخطوات الفردية ؛ تتم معالجتها بالترتيب المذكور أعلاه. بدلاً من ذلك ، يتم النظر في استخدام الأنابيب في المحطة بشكل صريح ، مما يسمح بتمرير حالة قاعدة البيانات إلى مثيل آخر للبرنامج. هذا يجعل من الممكن التحقق من كل خطوة وتعديلها (على سبيل المثال ، تحليل النص الأول ، ثم التصفية بالجودة ، تليها تحليل الصور ، ثم إعادة التصفية ، وأخيراً تصدير ملفات PDF). باستخدام JSON-Output ، يمكن أن يتم تنشيط نتائج البرنامج مباشرة إلى مثيل آخر من البرنامج.
$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
[--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
[input_items ...]
Smart PDF-analyzing Tool
positional arguments:
input_items List of input PDFs and folders, alternativly you can use a JSON- or CSV-file
options:
-h , --help show this help message and exit
--config-file CONFIG_FILE
Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
-b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
Set base directory
-j [JSON], --json [JSON]
Output JSON-Database to stdout. If filename provided, save it to file
-s [CSV], --csv [CSV]
Output CSV-Database to specified file
-d {0,1,2}, --debug {0,1,2}
Debug level (0: no debug, 1: basic debug, 2: detailed debug)
-f , --file-analysis Try to conventionally extract metadata from file, file name and folder structure
-t , --ai-text-analysis
Do an AI text analysis
-i, --ai-image-analysis
Do an AI image analysis
-c , --ai-tag-analysis
Do an AI tag analysis
-e [EXPORT], --export [EXPORT]
Copy Documents to a target folder
-l, --list List documents stored in database
--keep-above [KEEP_ABOVE]
Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific
value (default: 7).
--keep-below [KEEP_BELOW]
Analogous to --keep-above. Retain only document with an index less than specified.
--calc-stats Calculate statistics and (roughly ! ) estimate costs for different analysesاقرأ جميع ملفات PDF من مجلد pdf_archive ، وقم بتحليل الملفات الأساسي (-F) وتخزين المعلومات في ملفات json database.json (-j [filename]):
$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.jsonاقرأ سابقة تم إنشاؤها من JSON-Database ، قم بتحليل AI-text ، وتخزين النتائج في ملف JSON جديد
$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.jsonقم بتحليل AI-heices لجميع الملفات ذات البيانات الوصفية ذات الجودة المنخفضة المقدرة.
$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.jsonتذكر جميعًا معًا وتحليل وتنظيم العلامات
$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.jsonانسخ الملفات إلى مجلد جديد New_archive إعداد بيانات تعريف جديدة وتعيين أسماء ملفات جديدة. لا يزال هيكل المجلد الأصلي دون تغيير.
$ autoPDFtagger final.json -e ./new_archiveافعل كل شيء دفعة واحدة:
$ autoPDFtagger pdf_archive -ftic -e new_archivemain.py : الواجهة الطرفية للتطبيق.autoPDFtagger.py : يدير الوظائف الأساسية للأداة.AIAgents.py : الفئات الأساسية لإدارة وكيل الذكاء الاصطناعي ، بما في ذلك اتصال API Openai.AIAgents_OPENAI_pdf.py : وكلاء الذكاء الاصطناعي المحددين مخصصون للنص والصورة والعلامة تحليل.PDFDocument.py : يتعامل مع وثائق PDF الفردية ، وإدارة قراءة البيانات الوصفية والكتابة.PDFList.py : يشرف على قاعدة بيانات لمستندات PDF ، والبيانات الوصفية الخاصة بهم ، ويوفر وظائف التصدير.config.py : يدير ملفات التكوين.autoPDFtagger_example_config.conf : ملف تكوين مثال يحدد إعداد مفتاح API والإعدادات الأخرى. GPL-3