Digital Form with GPT4 Vision API
1.0.0
GPT 4 Vision APIを使用して、https://jsonforms.io/のJSONフォームを使用して画像からデジタルフォームを生成するPOC
?に触発された:
両方のリポジトリは、GPT4 Vision APIを使用して画像からUIを生成できることを示しており、画像で提供されるレイアウトのパターンと構造を認識できることを示しています。

サムネイルをクリックしてYouTubeで監視してください。
https://nathanfhh.github.io/digital-form-with-gpt4-vision-api/
PDF.JSを使用してPDFファイルを処理し、OpenAIのAPIにリクエストして、ブラウザで完全に応答を生成します。
cd cd ai-json-formnpm install
npm run devcd cd backendpoetry install
# alternatively, you can use pip install
pip install -r requirements.txt export OPENAI_API_KEY=
# optional
export OPENAI_ORG=Mock Responseのみを使用する場合のみ、openai_api_keyを任意の値に設定する必要があります。
python main.py echo " OPENAI_API_KEY=YOUR_API_KEY " > .env
# The following is optional
echo " OPENAI_ORG=YOUR_ORG " >> .envdocker-compose up --buildhttp://localhost:8080/aijsv/ 私はVueが初めてなので、コードがベストプラクティスではないかもしれません。私はまだ学び、改善しています。提案がある場合は、PRをお気軽にお問い合わせください。
フロントエンドから最大3ページのPDFファイルをアップロードします
ページ数を調整する場合は、
backend/app/socket.pyでMAX_PDF_PAGES変数を変更できます。
バックエンドがBase64文字列形式でPDFファイルを受信すると、次のプロセスを実行します。
pdf2imageを使用して /TMPフォルダーに保存します。PyPDF2を使用して、同じPDFファイルから文字列を抽出します。抽出された文字列は、精度を向上させるためにGPT4モデルに送信されるプロンプトの一部になります。フロントエンドがチャンクを受信するたびに、 codemirrorエディターに追加し、現在のコンテンツが有効なYAMLであるかどうかを確認します。有効なYAMLの場合、UIに再レンダリングを強制するためにJSONスキームに適用します。