تنزيل autoPDFtagger - تنزيل رمز autoPDFtagger

autoPDFtagger

شفرة المصدر الأخرى

1.0.0

تنزيل

autopdftagger

ملخص

AutopDftagger هي أداة Python مصممة لتنظيم المكتب المنزلي الفعال ، مع التركيز على رقمنة وتنظيم الوثائق الرقمية والورق. من خلال أتمتة وضع علامات ملفات PDF ، بما في ذلك المستندات الغنية بالصور والمسح بجودة مختلفة ، فإنه يهدف إلى تبسيط تنظيم المحفوظات الرقمية.

المفاهيم الرئيسية

وضع العلامات التي تعمل من الذكاء الاصطناعى : تستفيد من GPT-4 و GPT-Vision للعلامة الآلية بالكامل لـ PDFs ، بما في ذلك الرسومات المعقدة والمسح ذو الجودة المنخفضة.
التركيز : تم تصميمه لإعدادات المكتب المنزلي غير الورقي ، وإعطاء الأولوية لتحليل البيانات الدقيق على واجهة المستخدم المعقدة.
المتطلبات : بيئة بيثون ومفتاح Openai API.
الوظائف :
- تحليل نص قوي مدعوم من GPT.
- تحليل الصور المتقدم باستخدام GPT-Vision.
- يستخدم البيانات الوصفية الحالية وأسماء الملفات وهياكل المجلدات.
- يجمع المعلومات في قاعدة بيانات JSON لسهولة الوصول إليها.
- توحيد تسمية الملف (YY-MM-DD- {title} .pdf) وتحديث بيانات التعريف PDF للفهرسة الفعالة.
- قابل للتكوين لدمج وكلاء الذكاء الاصطناعي الآخرين.
- التحسينات المستقبلية لتحسين منظمة المجلد.

المفهوم والسياق

في العصر الرقمي المتقدم ، يتم الآن تسليم العديد من المستندات رقميًا ، ومع ذلك لا تزال المستندات المهمة في كثير من الأحيان تصل في شكل ورقي. بالتطلع نحو مستقبل رقمي ، يصبح توحيد هذه المستندات في أرشيف رقمي موحد قيمة بشكل متزايد. جعل المسح البسيط باستخدام كاميرات الهواتف الذكية هذا العملي. ومع ذلك ، فإن موثوقية تقنيات التعرف الضوئي على الحروف القائمة وقدرتها المحدودة على فهرسة المحتوى غير النصي الفعال مثل الرسومات أو الصور تعوق بحث هذه المستندات. يهدف AutoPdftagger إلى سد هذه الفجوة من خلال تقديم تحليل بمساعدة AI وتنظيم ملفات PDF ، وتعزيز قابلية البحث والتنظيم بمستوى من الدقة مماثلة للجهد البشري.

الوضع الحالي

في الوقت الحالي ، يوجد نموذج أولي وظيفي في شكل برنامج طرفي مع وحدة بيثون ، والتي توضح وظيفتها وقد حققت بالفعل نتائج رائعة بالنسبة لي. بالنسبة للتطبيق الأوسع ، من المؤكد أن العديد من التحسينات التفصيلية ضرورية ، خاصة في الاختبار ، وتحسين التحسين ، ومعالجة الأخطاء والتوثيق.

الحذر والاعتبارات / إخلاء المسئولية

خصوصية البيانات : يتم إرسال محتوى PDF إلى خوادم Openai للتحليل. بينما يدعي Openai عدم استخدام مدخلات API للتدريب ، يُنصح الحساسية في التعامل مع المستندات الخاصة.
التحكم في التكاليف : كن على دراية بالتكاليف المرتبطة باستخدام API Openai ، والذي يعتمد على حجم الطلب. تحليل صفحة واحدة يكلف حوالي 0.05 دولار.
الدقة والموثوقية : هذا الإصدار الأولي هو دليل على المفهوم وقد يكون له قيود. إنه مصمم لإنشاء نسخ بدلاً من تغيير الملفات الأصلية.
تحرير البيانات الوصفية : يمكن أن يؤدي تغيير البيانات الوصفية إلى إبطال مستندات معينة. كن حذرًا مع المستندات الرقمية الموقعة.

يساهم

إذا وجدت هذه الأداة مفيدة ولديك أفكار لتحسينها ، فلا تتردد في المساهمة. على الرغم من أنني لست مبرمجًا بدوام كامل ولا أشعر بالاحتراف على الإطلاق ، إلا أن أي اقتراحات أو تحسينات مرحب بها. إرسال تقارير الأخطاء أو طلبات الميزات أو أي ملاحظات أخرى. شكرا على التوقف!

متطلبات تشغيل هذا البرنامج

بيثون
مفتاح Openai-Api-key مع إمكانية الوصول إلى نموذج GPT-4-Vision-Preview
حساب تكاليف حوالي 0.03 دولار لكل PDF معالجة الصور

تثبيت

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

قم بإنشاء ملف التكوين وحفظه إلى ~/.autopdftagger.conf :

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

بنية البرنامج

البرنامج منظم بشكل أساسي على النحو التالي:

1. قراءة قاعدة البيانات (الإدخال)

من خلال تحديد ملفات PDF
من خلال تحديد ملف JSON
عن طريق إدخال JSON عبر المدخلات القياسية

2. تعديل قاعدة البيانات (المعالجة)

تصفية الملفات بناءً على معايير الجودة
تحليل البيانات الوصفية الحالية ، اسم الملف ، بنية المجلد ( file analysis )
تحليل النص الموجود ( text analysis )
تحليل الصور الموجودة ( image analysis )
تحليل وفرز العلامات ( tag analysis )

3. قاعدة بيانات الإخراج (الإخراج)

كـ JSON عبر الإخراج القياسي
كما JSON في ملف
في شكل ملفات PDF مع البيانات الوصفية المحدثة
كإحصائيات

ملاحظة: بشكل أساسي ، (تقريبًا) يمكن دمج جميع الخيارات. ومع ذلك ، تم إصلاح ترتيب الخطوات الفردية ؛ تتم معالجتها بالترتيب المذكور أعلاه. بدلاً من ذلك ، يتم النظر في استخدام الأنابيب في المحطة بشكل صريح ، مما يسمح بتمرير حالة قاعدة البيانات إلى مثيل آخر للبرنامج. هذا يجعل من الممكن التحقق من كل خطوة وتعديلها (على سبيل المثال ، تحليل النص الأول ، ثم التصفية بالجودة ، تليها تحليل الصور ، ثم إعادة التصفية ، وأخيراً تصدير ملفات PDF). باستخدام JSON-Output ، يمكن أن يتم تنشيط نتائج البرنامج مباشرة إلى مثيل آخر من البرنامج.

الاستخدام

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

أمثلة

اقرأ جميع ملفات PDF من مجلد pdf_archive ، وقم بتحليل الملفات الأساسي (-F) وتخزين المعلومات في ملفات json database.json (-j [filename]):

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

اقرأ سابقة تم إنشاؤها من JSON-Database ، قم بتحليل AI-text ، وتخزين النتائج في ملف JSON جديد

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

قم بتحليل AI-heices لجميع الملفات ذات البيانات الوصفية ذات الجودة المنخفضة المقدرة.

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

تذكر جميعًا معًا وتحليل وتنظيم العلامات

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

انسخ الملفات إلى مجلد جديد New_archive إعداد بيانات تعريف جديدة وتعيين أسماء ملفات جديدة. لا يزال هيكل المجلد الأصلي دون تغيير.

$ autoPDFtagger final.json -e ./new_archive

افعل كل شيء دفعة واحدة:

$ autoPDFtagger pdf_archive -ftic -e new_archive

جوانب تقنية عشوائية / غوص أعمق إذا كنت تريد

بالإضافة إلى البرنامج الطرفي ، تتوفر AutOpDftagger وحدة بيثون للتكامل مع البرامج الأخرى. تحقق من رمز تفاصيل الواجهة.
لا يتضمن تحليل الملفات اسم الملف فحسب ، بل يتضمن أيضًا مسار الملف المحلي بالنسبة إلى الدليل الأساسي (الدليل الأساسي). بشكل افتراضي ، عند تحديد المجلدات ، يتم تعيين المجلد المعني كدليل أساسي لجميع الملفات وصولاً إلى المجلدات الفرعية. في بعض الحالات ، قد يكون من المعقول تعيين دليل أساسي مختلف يدويًا.
تستخدم إدارة البيانات الوصفية "منطق الثقة". هذا يعني أن البيانات يتم تحديثها فقط إذا كان اليقين/الثقة (المقدرة) أعلى من البيانات الحالية. هذا يهدف إلى تحسين المعلومات المتزايدة ولكن قد يؤدي في بعض الأحيان إلى نتائج غير متسقة.
مؤشر الكلمة الرئيسية: ضمن البرنامج ، من الممكن تصفية قاعدة البيانات بهذه القيمة. ما هو الأساس المنطقي وراءه؟ في المقام الأول ، إنه حل مرتجل بسرعة لتمكين فرز إدخالات قاعدة البيانات من خلال جودة البيانات الوصفية. يقيم الذكاء الاصطناعي نفسه مدى جودة الإجابة على الأسئلة المعطاة بناءً على المعلومات المتاحة وتعيين مستوى الثقة. هناك قيم ثقة فردية للعنوان والملخص وتاريخ الخلق. لتوحيدها في قيمة واحدة ، يتم حساب المتوسط في البداية. ومع ذلك ، نظرًا لأن العنوان وتاريخ الإنشاء أمران بالغ الأهمية بشكل خاص ، يتم استخدام الحد الأدنى لقيمة من المتوسط والعنوان وتاريخ الإنشاء
يتم إجراء تحليل النص للوثائق في التكوين الحالي بمساعدة GPT-3.5-TURBO-1106. مع نافذة سياق قدرها 16 كيلو ، يمكن تحليل المستندات الأكبر بسعر أقل من 0.01 دولار. في اختباراتي ، أثبتت الجودة أنها كافية. فقط بالنسبة للمستندات القصيرة جدًا ، يبدو أن GPT-4 يجلب فائدة كبيرة. لذلك ، يستخدم البرنامج تلقائيًا GPT-4 للنصوص القصيرة (حوالي 100 كلمة).
تحليل الصور هو العملية الأكثر استهلاكًا للوقت ومكلفة ، وهذا هو السبب في تعديل الخوارزمية أيضًا هنا. في وقت الإنشاء ، يوجد فقط نموذج GPT-4-Vision-Preview. النهج الحالي هو تحليل الصفحة الأولى فقط للوثائق الممسوحة ضوئيًا. يتم تحليل الصفحات اللاحقة فقط إذا لم يكن من الممكن تحديد البيانات الوصفية ذات الصلة بثقة كافية. يوجد منطق مماثل لـ PDFs التي تم إنشاؤها رقميًا ، حيث يتم تحليل الصور الموجودة فقط حتى تصبح جودة المعلومات كافية.

هيكل الكود

main.py : الواجهة الطرفية للتطبيق.
autoPDFtagger.py : يدير الوظائف الأساسية للأداة.
AIAgents.py : الفئات الأساسية لإدارة وكيل الذكاء الاصطناعي ، بما في ذلك اتصال API Openai.
AIAgents_OPENAI_pdf.py : وكلاء الذكاء الاصطناعي المحددين مخصصون للنص والصورة والعلامة تحليل.
PDFDocument.py : يتعامل مع وثائق PDF الفردية ، وإدارة قراءة البيانات الوصفية والكتابة.
PDFList.py : يشرف على قاعدة بيانات لمستندات PDF ، والبيانات الوصفية الخاصة بهم ، ويوفر وظائف التصدير.
config.py : يدير ملفات التكوين.
autoPDFtagger_example_config.conf : ملف تكوين مثال يحدد إعداد مفتاح API والإعدادات الأخرى.

التنمية في المستقبل

تطبيق ذاكرة التخزين المؤقت AI-API لتوفير التكلفة والوقت للاختبار
التحكم في التكاليف : تنفيذ ميزات لمراقبة وإدارة تكاليف استخدام API.
واجهة المستخدم الرسومية : تطوير واجهة سهلة الاستخدام.
تطبيق HTML Viewer : تطبيق مقترح لتصور قاعدة بيانات JSON ودمجها مع أرشيف الملفات.
التكامل والتوافق :
- التوسع إلى واجهات برمجة التطبيقات الأخرى من الذكاء الاصطناعي واستكشاف تكامل نموذج الذكاء الاصطناعي المحلي.
- ضمان التوافق مع تطبيقات مثل NGX بدون الورق.
تعزيز تنظيم العلامات وتطوير المعلومات الهرمية من خلال تطبيق خوارزميات التجميع على قاعدة بيانات المتجهات

رخصة

GPL-3

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-06
الحجم 41.54KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل