英語| 簡體中文

PDF科學紙翻譯和雙語比較。
隨時在GitHub問題,電報組或QQ組中提供反饋。

您可以在不安裝的情況下在線嘗試我們的公共服務。
您可以在不安裝的情況下嘗試我們的HuggingFace演示。請注意,演示的計算資源是有限的,因此請避免濫用它們。
我們提供了三種使用此項目的方法:命令行,GUI和Docker。
安裝了Python(3.8 <=版本<= 3.12)
安裝我們的軟件包:
pip install pdf2zh執行翻譯,當前工作目錄中生成的文件:
pdf2zh document.pdf安裝了Python(3.8 <=版本<= 3.12)
安裝我們的軟件包:
pip install pdf2zh開始在瀏覽器中使用:
pdf2zh -i如果您的Browswer尚未自動啟動,則
http://localhost:7860/
有關更多詳細信息,請參見GUI文檔。
拉和運行:
docker pull byaidu/pdf2zh
docker run -d -p 7860:7860 byaidu/pdf2zh在瀏覽器中打開:
http://localhost:7860/
對於Docker部署在雲服務上:
在命令行中執行翻譯命令,以生成翻譯的文檔example-zh.pdf和當前工作目錄中的雙語文檔example-dual.pdf 。使用Google作為默認翻譯服務。

在下表中,我們列出了所有高級選項以供參考:
| 選項 | 功能 | 例子 |
|---|---|---|
| 文件 | 本地文件 | pdf2zh ~/local.pdf |
| 鏈接 | 在線文件 | pdf2zh http://arxiv.org/paper.pdf |
-i | 輸入GUI | pdf2zh -i |
-p | 部分文檔翻譯 | pdf2zh example.pdf -p 1 |
-li | 源語言 | pdf2zh example.pdf -li en |
-lo | 目標語言 | pdf2zh example.pdf -lo zh |
-s | 翻譯服務 | pdf2zh example.pdf -s deepl |
-t | 多線程 | pdf2zh example.pdf -t 1 |
-o | 輸出dir | pdf2zh example.pdf -o output |
-f , -c | 例外 | pdf2zh example.pdf -f "(MS.*)" |
一些服務需要設置環境變量。
整個文檔
pdf2zh example.pdf文件的一部分
pdf2zh example.pdf -p 1-3,5查看Google語言代碼,DEEPL語言代碼
pdf2zh example.pdf -li en -lo ja深色
見Deepl
設置Envs構造一個端點,例如: {DEEPL_SERVER_URL}/translate
DEEPL_SERVER_URL (可選),例如, export DEEPL_SERVER_URL=https://api.deepl.comDEEPL_AUTH_KEY ,例如, export DEEPL_AUTH_KEY=xxx pdf2zh example.pdf -s deeplDeeplx
參見Deeplx
設置Envs構造一個端點,例如: {DEEPL_SERVER_URL}/translate
DEEPLX_SERVER_URL (可選),例如, export DEEPLX_SERVER_URL=https://api.deeplx.orgDEEPLX_AUTH_KEY ,例如, export DEEPLX_AUTH_KEY=xxx pdf2zh example.pdf -s deeplx霍拉馬
見霍拉馬
設置envs構造一個端點,例如: {OLLAMA_HOST}/api/chat
OLLAMA_HOST (可選),例如, export OLLAMA_HOST=https://localhost:11434 pdf2zh example.pdf -s ollama:gemma2LLM與OpenAI兼容模式(OpenAI / SiliconCloud / Zhipu)
參見Zhipu Siliconcloud
設置Envs構造一個端點,例如: {OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL (可選),例如, export OPENAI_BASE_URL=https://api.openai.com/v1OPENAI_API_KEY ,例如, export OPENAI_API_KEY=xxx pdf2zh example.pdf -s openai:gpt-4oazure
查看Azure文本翻譯
需要以下ENV:
AZURE_APIKEY ,例如, export AZURE_APIKEY=xxxAZURE_ENDPOINT ,例如, export AZURE_ENDPOINT=https://api.translator.azure.cn/AZURE_REGION ,例如, export AZURE_REGION=chinaeast2 pdf2zh example.pdf -s azure騰訊機器翻譯
請參閱騰訊翻譯
需要以下ENV:
TENCENT_SECRET_ID ,例如, export TENCENT_SECRET_ID=AKIDxxxTENCENT_SECRET_KEY ,例如, export TENCENT_SECRET_KEY=xxx pdf2zh example.pdf -s tencent使用Regex指定需要保留的公式字體和字符:
pdf2zh example.pdf -f " (CM[^RT].*|MS.*|.*Ital) " -c " ((|||)|+|=|d|[u0080-ufaff]) "使用-t指定在翻譯中使用多少個線程:
pdf2zh example.pdf -t 1帶有Paddlex,Papermage,SAM2的解析佈局
修復頁面旋轉,目錄,列表格式
修復舊紙中的像素公式
用noto字體支持多語言,ubuntu字體
重試鍵盤區除外
文件合併:pymupdf
文檔解析:pdfminer.six
文檔提取:Mineru
多線程翻譯:MathTranslate
佈局解析:doclayout-yolo
文檔標準:PDF解釋,PDF作弊表