英语| 简体中文

PDF科学纸翻译和双语比较。
随时在GitHub问题,电报组或QQ组中提供反馈。

您可以在不安装的情况下在线尝试我们的公共服务。
您可以在不安装的情况下尝试我们的HuggingFace演示。请注意,演示的计算资源是有限的,因此请避免滥用它们。
我们提供了三种使用此项目的方法:命令行,GUI和Docker。
安装了Python(3.8 <=版本<= 3.12)
安装我们的软件包:
pip install pdf2zh执行翻译,当前工作目录中生成的文件:
pdf2zh document.pdf安装了Python(3.8 <=版本<= 3.12)
安装我们的软件包:
pip install pdf2zh开始在浏览器中使用:
pdf2zh -i如果您的Browswer尚未自动启动,则
http://localhost:7860/
有关更多详细信息,请参见GUI文档。
拉和运行:
docker pull byaidu/pdf2zh
docker run -d -p 7860:7860 byaidu/pdf2zh在浏览器中打开:
http://localhost:7860/
对于Docker部署在云服务上:
在命令行中执行翻译命令,以生成翻译的文档example-zh.pdf和当前工作目录中的双语文档example-dual.pdf 。使用Google作为默认翻译服务。

在下表中,我们列出了所有高级选项以供参考:
| 选项 | 功能 | 例子 |
|---|---|---|
| 文件 | 本地文件 | pdf2zh ~/local.pdf |
| 链接 | 在线文件 | pdf2zh http://arxiv.org/paper.pdf |
-i | 输入GUI | pdf2zh -i |
-p | 部分文档翻译 | pdf2zh example.pdf -p 1 |
-li | 源语言 | pdf2zh example.pdf -li en |
-lo | 目标语言 | pdf2zh example.pdf -lo zh |
-s | 翻译服务 | pdf2zh example.pdf -s deepl |
-t | 多线程 | pdf2zh example.pdf -t 1 |
-o | 输出dir | pdf2zh example.pdf -o output |
-f , -c | 例外 | pdf2zh example.pdf -f "(MS.*)" |
一些服务需要设置环境变量。
整个文档
pdf2zh example.pdf文件的一部分
pdf2zh example.pdf -p 1-3,5查看Google语言代码,DEEPL语言代码
pdf2zh example.pdf -li en -lo ja深色
见Deepl
设置Envs构造一个端点,例如: {DEEPL_SERVER_URL}/translate
DEEPL_SERVER_URL (可选),例如, export DEEPL_SERVER_URL=https://api.deepl.comDEEPL_AUTH_KEY ,例如, export DEEPL_AUTH_KEY=xxx pdf2zh example.pdf -s deeplDeeplx
参见Deeplx
设置Envs构造一个端点,例如: {DEEPL_SERVER_URL}/translate
DEEPLX_SERVER_URL (可选),例如, export DEEPLX_SERVER_URL=https://api.deeplx.orgDEEPLX_AUTH_KEY ,例如, export DEEPLX_AUTH_KEY=xxx pdf2zh example.pdf -s deeplx霍拉马
见霍拉马
设置envs构造一个端点,例如: {OLLAMA_HOST}/api/chat
OLLAMA_HOST (可选),例如, export OLLAMA_HOST=https://localhost:11434 pdf2zh example.pdf -s ollama:gemma2LLM与OpenAI兼容模式(OpenAI / SiliconCloud / Zhipu)
参见Zhipu Siliconcloud
设置Envs构造一个端点,例如: {OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL (可选),例如, export OPENAI_BASE_URL=https://api.openai.com/v1OPENAI_API_KEY ,例如, export OPENAI_API_KEY=xxx pdf2zh example.pdf -s openai:gpt-4oazure
查看Azure文本翻译
需要以下ENV:
AZURE_APIKEY ,例如, export AZURE_APIKEY=xxxAZURE_ENDPOINT ,例如, export AZURE_ENDPOINT=https://api.translator.azure.cn/AZURE_REGION ,例如, export AZURE_REGION=chinaeast2 pdf2zh example.pdf -s azure腾讯机器翻译
请参阅腾讯翻译
需要以下ENV:
TENCENT_SECRET_ID ,例如, export TENCENT_SECRET_ID=AKIDxxxTENCENT_SECRET_KEY ,例如, export TENCENT_SECRET_KEY=xxx pdf2zh example.pdf -s tencent使用Regex指定需要保留的公式字体和字符:
pdf2zh example.pdf -f " (CM[^RT].*|MS.*|.*Ital) " -c " ((|||)|+|=|d|[u0080-ufaff]) "使用-t指定在翻译中使用多少个线程:
pdf2zh example.pdf -t 1带有Paddlex,Papermage,SAM2的解析布局
修复页面旋转,目录,列表格式
修复旧纸中的像素公式
用noto字体支持多语言,ubuntu字体
重试键盘区除外
文件合并:pymupdf
文档解析:pdfminer.six
文档提取:Mineru
多线程翻译:MathTranslate
布局解析:doclayout-yolo
文档标准:PDF解释,PDF作弊表