Unduh pd3f - Unduh Kode Sumber pd3f

pd3f

Kode Sumber AI

1.0.0

Unduh

`pd3f`

Eksperimental, gunakan dengan hati -hati.

pd3f adalah pipa ekstraksi teks PDF yang di-host sendiri, lokal-pertama dan berbasis Docker. Ini merekonstruksi teks kontinu asli dengan bantuan pembelajaran mesin .

pd3f dapat OCR memindai PDF dengan OCRMYPDF (Tesseract) dan mengekstrak tabel dengan Camelot dan Tabula. Itu dibangun di atas output Parsr. Parsr mendeteksi hierarki teks dan membagi teks menjadi kata -kata, baris, dan paragraf.

Meskipun Parsr membawa beberapa struktur ke PDF, teks masih diacak, yaitu, karena tanda hubung. Paket Python yang mendasari PD3F-Core mencoba merekonstruksi teks kontinu asli dengan menghilangkan tanda hubung, baris baru dan / atau spasi. Ini menggunakan model bahasa untuk menebak bagaimana teks aslinya terlihat.

pd3f sangat berguna untuk bahasa dengan kata -kata panjang seperti Jerman. Itu terutama dikembangkan untuk menguraikan surat -surat Jerman dan dokumen resmi. Selain pd3f Jerman mendukung bahasa Inggris, Spanyol, Prancis dan Italia. Lebih banyak bahasa akan ditambahkan tahap selanjutnya.

pd3f mencakup GUI berbasis web dan Microservice (API) berbasis Flask. Anda dapat menemukan demo di demo.pd3f.com.

Dokumentasi

Lihat dokumentasi lengkap di: https://pd3f.com/docs/

Pekerjaan / TODO Masa Depan

PDF sulit diproses dan sulit untuk mengekstraksi informasi. Jadi hasil alat ini mungkin tidak memuaskan Anda. Akan ada lebih banyak pekerjaan untuk meningkatkan perangkat lunak ini tetapi sama sekali, tidak mungkin bahwa itu akan berhasil mengekstrak semua informasi dalam waktu dekat.

Di sini beberapa hal yang akan ditingkatkan.

statika tentang berapa lama pemrosesan (per halaman) di masa lalu

Hitung runtime berdasarkan job.started_at dan job.ended_at
Dapatkan runtime rata -rata pekerjaan dan simpan data dalam daftar redis

Informasi lebih lanjut tentang PDF

Ner
Entitas Linking
Ekstrak kata kunci
Gunakan tekstasi

Tambahkan lebih banyak bahasa

Periksa apakah bakat memiliki model
Apa yang harus dilakukan jika tidak ada model cepat?

Klien Python

klien sederhana berdasarkan permintaan
Kirim seluruh folder

Ekspor Markdown / HTML

melampaui teks

Gunakan skrip pdf / Izinkan lebih banyak pemrosesan

mengurangi ukuran
Perbaiki pdf
Deteksi jika dipindai
memaksa occr lagi

meningkatkan log / mendapatkan umpan balik yang lebih baik

Tunjukkan ketidakpastian model ML
memungkinkan level log yang berbeda

Pekerjaan terkait

https://github.com/axa-group/parsr
https://github.com/jzillmann/pdf-to-markdown
Beberapa alat pemrosesan PDF di posting blog saya

Perkembangan

Instal dan gunakan puisi.

Awalnya jalankan:

./dev.sh --build

OMIT --build Jika gambar Docker tidak perlu dibangun. Saat ini Docker + puisi tidak dapat menangani pemasangan sehingga membangun gambar sepanjang waktu tidak keren.