自動化された Python ライブラリを使用すると、Python 3.10 以降のアプリケーションから自動化された REST API に簡単にアクセスできます。このライブラリには、すべてのリクエスト パラメータとレスポンス フィールドの型定義が含まれており、httpx を利用した同期クライアントと非同期クライアントの両方を提供します。
重要
ドキュメント抽出サービスは現在クローズドベータ版です。
# PyPIpip からインストール自動インストール
設定するターゲット モデルを定義し、それを処理する PDF とともに.extract_model()メソッドに渡します。最初の 1,000 件のドキュメントは無料ですが、 API_KEY内の電子メールを必ず置き換えてください。初めて抽出を実行すると、リンクが記載された確認メールが届きます。メールアドレス (API キーで定義) がまだ検証されていないため、最初の実行は失敗します。検証後、スクリプトを再実行すると機能するはずです。以下に例を示します。
from datetime import datefrom pydantic import フィールド、BaseModelfrom 自動インポート DocExtClient# from 自動インポート AsyncDocExtClientclass Article(BaseModel):article_number:str |なし = フィールド(なし、説明="通常はアルファベットまたは英数字。") 説明: str | None = Field(None, description="商品の説明") 数量: float |なし = フィールド (なし、説明 = "個数。") クラス PurchaseOrder(BaseModel): customer_name: str |なし = フィールド(なし、説明="例: Kaladent Inc.、Henkel GmbH") order_number: str |なし = フィールド (なし、説明 = 注文書番号。) order_date: 日付 | None = Field(None, description="発注日。") items: list[Article] = Field(default_factory=list, description="注文されたすべての記事のリスト。")client = DocExtClient(API_KEY="TEST_BETA:you) @company.com") # 電子メールをあなたのものに置き換えます。ベータ版が終了するとすぐに、production.result の適切な API キーを受け取ります: PurchaseOrder = client.extract_model(PurchaseOrder, "./po.pdf") # automaited.dev/samplesprint(result)
ここからサンプル PDF をダウンロードできます: automaited.dev/samples ターゲット モデルの定義方法について詳しく知りたい場合は、pydantic ドキュメントを参照してください。