autoPDFtagger скачать - autoPDFtagger исходный код скачать

autoPDFtagger

Другой исходный код

1.0.0

Скачать

Autopdftgger

Обзор

Autopdftgger-это инструмент Python, предназначенный для эффективной организации домашнего офиса, сосредоточенного на оцифровке и организации как цифровых, так и на бумажных документах. Автоматируя тегирование файлов PDF, включая богатые изображениями документы и сканирование различного качества, он направлен на оптимизацию организации цифровых архивов.

Ключевые понятия

Тегинг с помощью AI : использует GPT-4 и GPT-Vision для полностью автоматизированного помечения PDF-файлов, включая сложные чертежи и низкокачественные сканы.
Фокус : спроектировано для безбумажных настройки домашнего офиса, определяя приоритет точного анализа данных над сложным пользовательским интерфейсом.
Требования : среда Python и ключ API OpenAI.
Функциональные возможности :
- Надежный текстовый анализ, основанный на GPT.
- Расширенный анализ изображений с использованием GPT-Vision.
- Использует существующие метаданные, имена файлов и структуры папок.
- Скомпилируют информацию в базу данных JSON для легкого доступа.
- Стандартизируют именование файлов (YY-MM-DD- {title} .pdf) и обновляют метаданные PDF для эффективной индексации.
- Настраивается для интеграции других агентов искусственного интеллекта.
- Будущие улучшения для уточнения организации папок.

Концепция и контекст

В развивающемся цифровом эпохе многие документы теперь доставляются в цифровом виде, но значительные документы часто все еще поступают в бумажную форму. Глядя на цифровое будущее, консолидация этих документов в единый цифровой архив становится все более ценной. Простое сканирование с использованием смартфонов сделало это практичным. Тем не менее, надежность существующих технологий OCR и их ограниченная способность эффективно индексировать не текстовый контент, такой как чертежи или фотографии, препятствуют поиску этих документов. Autopdftgger стремится преодолеть этот разрыв, предлагая A-A-Advisted Analysis и организацию PDF-файлов, повышая их поиск и организацию с уровнем точности, сравнимой с человеческими усилиями.

Текущий статус

На данный момент существует функциональный прототип в форме терминальной программы с модулем Python, который демонстрирует его функциональность и уже достигла впечатляющих результатов для меня. Для более широкого применения многие подробные улучшения, безусловно, необходимы, особенно при тестировании, оптимизация PROMT, обработку ошибок и документацию.

Осторожность и соображения / отказ от ответственности

Конфиденциальность данных : содержание PDF передается на серверы OpenAI для анализа. В то время как OpenAI претендует на использование входных данных API для обучения, рекомендуется чувствительность в обращении частных документов.
Контроль затрат : Имейте в виду затраты, связанные с использованием API OpenAI, которые основаны на объеме запроса. Анализ одной страницы стоит около 0,05 $.
Точность и надежность : эта первоначальная версия является доказательством концепции и может иметь ограничения. Он предназначен для создания копий, а не изменять исходные файлы.
Редактирование метаданных : изменение метаданных может потенциально аннулировать определенные документы. Будьте осторожны с цифровыми подписанными документами.

Способствовать

Если вы обнаружите этот инструмент полезным и имеете идеи, чтобы улучшить его, не стесняйтесь внести свой вклад. Хотя я не программист на полный рабочий день, и я вообще не чувствую себя профессионалом, любые предложения или улучшения приветствуются. Отправьте отчеты об ошибках, запросы функций или любые другие отзывы. Спасибо, что зашли!

Требования к запуску этой программы

Питон
OpenAI-API-ключ с доступом к модели GPT-4-Vision-Preview
Рассчитайте затраты около 0,03 доллара на PDF-страницу с обработкой изображения

Установка

$ pip install git+https://github.com/Uli-Z/autoPDFtagger

Создайте файл конфигурации и сохраните его в ~/.autopdftgger.conf :

 ; Configuration for autoPDFtagger

[DEFAULT]
language = {YOUR LANGUAGE}

[OPENAI-API]
API-Key = {INSERT YOUR API-KEY}

Структура программы

Программа принципиально структурирована следующим образом:

1. Прочтите базу данных (вход)

Указав файлы PDF
Указав файл JSON
Введя JSON через стандартный ввод

2. Изменить базу данных (обработка)

Фильтрация файлов на основе критериев качества
Анализ существующих метаданных, имя файла, структура папок ( file analysis )
Анализ содержащегося текста ( text analysis )
Анализ содержащихся изображений ( image analysis )
Анализ и сортировка тегов ( tag analysis )

3. Выходная база данных (вывод)

Как json через стандартный выход
Как json в файле
В виде файлов PDF с обновленными метаданными включены
Как статистика

Примечание: главным образом, (почти) все варианты объединяются. Однако порядок отдельных шагов фиксирован; Они обрабатываются в указанном выше порядке. Вместо этого явно рассматривается использование трубопроводов в терминале, что позволяет передать состояние базы данных в другой экземпляр программы. Это позволяет проверить и изменять каждый шаг (например, первый текстовый анализ, а затем фильтрация по качеству, с последующим анализом изображений, затем повторной фильтрации и, наконец, экспорта файлов PDF). Используя json-output, результаты программы могут быть переданы непосредственно к другому экземпляру программы.

Использование

$ autoPDFtagger --help
usage: autoPDFtagger [-h] [--config-file CONFIG_FILE] [-b [BASE_DIRECTORY]] [-j [JSON]] [-s [CSV]] [-d {0,1,2}] [-f] [-t] [-i] [-c] [-e [EXPORT]] [-l]
                    [--keep-above [KEEP_ABOVE]] [--keep-below [KEEP_BELOW]] [--calc-stats]
                    [input_items ...]

Smart PDF-analyzing Tool

positional arguments:
 input_items           List of input PDFs and folders, alternativly you can use a JSON- or CSV-file

options:
 -h , --help            show this help message and exit
 --config-file CONFIG_FILE
                       Specify path to configuration file. Defaults to ~ /.autoPDFtagger.conf
 -b [BASE_DIRECTORY], --base-directory [BASE_DIRECTORY]
                       Set base directory
 -j [JSON], --json [JSON]
                       Output JSON-Database to stdout. If filename provided, save it to file
 -s [CSV], --csv [CSV]
                       Output CSV-Database to specified file
 -d {0,1,2}, --debug {0,1,2}
                       Debug level (0: no debug, 1: basic debug, 2: detailed debug)
 -f , --file-analysis   Try to conventionally extract metadata from file, file name and folder structure
 -t , --ai-text-analysis
                       Do an AI text analysis
 -i, --ai-image-analysis
                       Do an AI image analysis
 -c , --ai-tag-analysis
                       Do an AI tag analysis
 -e [EXPORT], --export [EXPORT]
                       Copy Documents to a target folder
 -l, --list            List documents stored in database
 --keep-above [KEEP_ABOVE]
                       Before applying actions, filter out and retain only the documents with a confidence index greater than or equal to a specific       
                       value (default: 7).
 --keep-below [KEEP_BELOW]
                       Analogous to --keep-above. Retain only document with an index less than specified.
 --calc-stats          Calculate statistics and (roughly ! ) estimate costs for different analyses

Примеры

Прочитайте все файлы PDF из папки PDF_ARCHIVE , выполните базовый анализ файлов (-f) и сохраните информацию в файлах json-database.json (-j [filename]):

$ autoPDFtagger ./pdf_archive --file-analysis --json allfiles.json

Прочитайте предыдущий созданный JSON-Database A-AI-TEXT-анализ, сохраняя результаты в новом файле JSON

$ autoPDFtagger allfiles.json --ai-text-analysis --json textanalysis.json

Сделайте анализ AI-IMAGE для всех файлов с оценочными низкокачественными метаданными.

$ autoPDFtagger textanalysis.json --keep-below --ai-image-analysis --json imageanalysis.json

Вспоминать все вместе, анализировать и организовать теги

$ autoPDFtagger textanalysis.json imageanalysis.json --ai-tag-analysis --json final.json

Скопируйте файлы в новую папку New_archive Установить новые метаданные и назначать новые имена файлов. Оригинальная структура папок остается неизменной.

$ autoPDFtagger final.json -e ./new_archive

Делайте все сразу:

$ autoPDFtagger pdf_archive -ftic -e new_archive

Случайные технические аспекты / погружение глубже, если хотите

В дополнение к программе терминала, для интеграции с другим программным обеспечением доступен модуль Python Module. Проверьте код для сведений интерфейса.
Анализ файлов включает не только имя файла, но и локальный путь файла относительно базового каталога (Base-Directory). По умолчанию, когда указываются папки, соответствующая папка устанавливается в качестве базового каталога для всех файлов до подпапки. В некоторых случаях может быть разумно устанавливать другой базовый каталог.
Metadata Management использует «доверительную логику». Это означает, что данные обновляются только в том случае, если (оцененная) уверенность/достоверность выше, чем существующие данные. Это направлено на постепенное улучшение информации, но иногда может привести к непоследовательным результатам.
Ключевое слово доверие-индекс : В рамках программы можно отфильтровать базу данных по этому значению. Какое обоснование за этим? Прежде всего, это быстро импровизированное решение для сортировки записей базы данных по качеству их метаданных. Сам ИИ оценивает, насколько хорошо он может ответить на заданные вопросы на основе доступной информации и устанавливает уровень доверия. Существуют индивидуальные значения доверия для названия, резюме и даты создания. Чтобы консолидировать их в одно значение, среднее значение изначально рассчитывается. Однако, поскольку дата названия и создания особенно важна, используется минимальная стоимость из средней, названия и даты создания
Текстовый анализ документов в текущей конфигурации проводится с помощью GPT-3.5-Turbo-1106. С окном контекста в 16 тыс., Еще большие документы могут быть проанализированы по доступной цене менее 0,01 долл. США. В моих тестах качество оказалось достаточным. Только для очень коротких документов GPT-4 приносит значительную выгоду. Поэтому программа автоматически использует GPT-4 для коротких текстов (~ 100 слов).
Анализ изображений является наиболее трудоемким и дорогостоящим процессом, поэтому алгоритм также скорректирован здесь. Во время творения существует только модель GPT-4-Vision-Preview. Текущий подход заключается в анализе только первой страницы для отсканированных документов. Последующие страницы анализируются только в том случае, если соответствующие метаданные не могут быть определены с достаточной уверенностью. Аналогичная логика существует для цифровых PDF -файлов, где содержащие изображения анализируются только до тех пор, пока не будет достаточным качеством информации.

Структура кода

main.py : интерфейс терминала для приложения.
autoPDFtagger.py : управляет основными функциями инструмента.
AIAgents.py : базовые классы для управления агентами AI, включая общение API OpenAI.
AIAgents_OPENAI_pdf.py : конкретные агенты ИИ, посвященные анализу текста, изображения и тегов.
PDFDocument.py : обрабатывает отдельные документы PDF, управление чтением и письмом метаданных.
PDFList.py : контролирует базу данных PDF -документов, их метаданные и предоставляет функции экспорта.
config.py : управляет файлами конфигурации.
autoPDFtagger_example_config.conf : пример настройки файла конфигурации настройки API и другие настройки.

Будущее развитие

Внедрение AI-API-Cache для экономии стоимости и времени для тестирования
Контроль затрат : реализация функций для мониторинга и управления затратами на использование API.
Графический пользовательский интерфейс : разработка более удобного интерфейса.
Приложение HTML Viewer : предлагаемое приложение для визуализации базы данных JSON и интеграции ее с архивом файла.
Интеграция и совместимость :
- Расширение на другие APIS ИИ и изучение местной интеграции модели ИИ.
- Обеспечение совместимости с такими приложениями, как безбумажный NGX.
Улучшение организации тегов и разработки иерархической информации через применение алгоритмов кластеризации в векторной базе данных

Лицензия

GPL-3

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-03-06
размер 41.54KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

autoPDFtagger

Autopdftgger

Обзор

Ключевые понятия

Концепция и контекст

Текущий статус

Осторожность и соображения / отказ от ответственности

Способствовать

Требования к запуску этой программы

Установка

Структура программы

1. Прочтите базу данных (вход)

2. Изменить базу данных (обработка)

3. Выходная база данных (вывод)

Использование

Примеры

Случайные технические аспекты / погружение глубже, если хотите

Структура кода

Будущее развитие

Лицензия

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express