PDF、PS 和 DjVu

名称	PDF	PostScript	DjVu	XPS	PDF 表单	PDF 注释	非矩形选择	许可证	Wayland 原生
Adobe Reader	自定义	–	–	–	是	–	是	专有	–
apvlv	Poppler	–	DjVuLibre	–	否	–	否（至少默认情况下不是）	GPLv2	–
Atril	Poppler	libspectre	DjVuLibre	libgxps	是	–	–	GPLv2	是
DjView	–	–	DjVuLibre	–	–	–	–	GPLv2	–
Emacs	Ghostscript¹		DjVuLibre¹	–	否	是	是	GPLv3	–
Emacs pdf-tools	Poppler	–	–	–	–	是	是	GPLv3	–
ePDFView	Poppler	–	–	–	否	–	–	GPLv2	–
Foxit Reader	自定义	–	–	–	是	是	是	专有	–
GNOME 文档查看器	Poppler	libspectre	DjVuLibre	libgxps	是	是	是	GPLv2	是
gv	Ghostscript		–	–	否	–	–	GPLv3	–
llpp	libmupdf	–	–	libmupdf	是	–	–	GPLv3	–
MuPDF	自定义	–	–	自定义	是 (mupdf-gl)	是 (mupdf-gl)	是 (mupdf-gl)	AGPLv3	否
Okular	Poppler	libspectre	DjVuLibre	自定义	是	是	是	GPL, LGPL	是
PDF4QT	自定义	–	–	–	否	是	是	LGPLv3	是
pdfpc	Poppler	–	–	–	否	–	–	GPLv2	–
qpdfview	Poppler	libspectre¹	DjVuLibre¹	–	是	是	–	GPLv2	是（缺少缩放支持）
Xpdf	自定义	–	–	–	否	–	–	GPLv3	是
Xreader	Poppler	libspectre¹	DjVuLibre¹	libgxps¹	是	是	是	GPLv2	–
Zathura	libmupdf¹ / Poppler¹	libspectre¹	DjVuLibre¹	libmupdf¹	否	否	是	zlib	是

可选依赖项需要安装

PDF 表单

上表中的PDF 表单列指的是 AcroForms 支持。如果您不需要直接从 PDF 中提取您的输入，您也可以使用 #图形 PDF 编辑中的应用程序在 PDF 的顶部放置文本。PDF 表单可以使用 LibreOffice Writer（视图 > 工具栏 > 表单控件）和高级 PDF 编辑器创建。

专有的且已弃用的 XFA 表单格式未被 Poppler 完全支持[1][2]，仅被 Adobe Reader 和 Master PDF Editor 支持。

或者，网页浏览器（如 Firefox 或 Chromium）具有内置的 PDF 查看器，能够填写表单。

图形 PDF 编辑

可以导入 PDF 文件的编辑器

Scribus 可以导入和导出 PDF；文本作为多边形导入。[3]
LibreOffice Draw 可以导入和导出 PDF；文本作为文本导入；嵌入的字体被替换。[4][5]
Inkscape 可以导入和导出 PDF；文本作为克隆字形或文本导入；对于后者，嵌入的字体将被替换。
图形编辑器，如 GIMP 和 krita 也可以导入和导出 PDF，但代价是栅格化。

基本编辑器

flpsed — PostScript 和 PDF 注释器，仅支持文本框。

https://flpsed.org/flpsed.html || flpsed^AUR

HandyOutliner for DjVu / PDF — 使为 DjVu 和 PDF 文档创建书签的过程更容易和更快。

https://handyoutlinerfo.sourceforge.net || handyoutliner-bin^AUR

jPDF Tweak — Java Swing 应用程序，可以组合、拆分、旋转、重新排序、添加水印、加密、签名以及其他调整 PDF 文件。

https://jpdftweak.sourceforge.net/ || jpdftweak^AUR

Paper Clip — PDF 文档元数据编辑器，用于编辑标题、作者、关键字和更多详细信息。

https://apps.gnome.org/PdfMetadataEditor/ || paper-clip

PDF Arranger — 帮助合并或拆分 pdf 文档，并旋转、裁剪和重新排列页面。它是 PDF-Shuffler 的维护分支。

https://github.com/jeromerobert/pdfarranger || pdfarranger

PDF Chain — PDFtk 的 GTK 前端，用 C++ 编写，支持连接、拆分、水印、附加文件等。

https://pdfchain.sourceforge.net/ || pdfchain^AUR

PdfJumbler — 用于重新排列、合并、删除和旋转 PDF 文件中的页面的简单工具。

https://github.com/mgropp/pdfjumbler || pdfjumbler^AUR

PDF Mix Tool — PoDoFo 的 Qt 前端，用 C++ 编写，支持拆分、合并、旋转和混合 PDF 文件。

https://scarpetta.eu/pdfmixtool/ || pdfmixtool

PDFsam — 开源应用程序，用 Java 编写，支持合并、拆分和旋转。

https://pdfsam.org/ || pdfsam^AUR

PDF Slicer — 用于提取、合并、旋转和重新排序 PDF 文档页面的简单应用程序。

https://junrrein.github.io/pdfslicer/ || pdfslicer

PDF Tricks — 使用 Ghostscript 对 PDF 文件进行小型操作的简单高效的应用程序。

https://github.com/muriloventuroso/pdftricks || pdftricks

裁剪工具

briss — Java GUI，用于将 PDF 文档的页面裁剪为一个或多个选定的区域。

https://sourceforge.net/projects/briss/ || briss^AUR

krop — 用于裁剪 PDF 文件页面的简单图形工具。

https://arminstraub.com/software/krop || krop^AUR

pdfCropMargins — 自动裁剪 PDF 文件的页边距。

https://github.com/abarker/pdfCropMargins || pdfcropmargins^AUR

PdfHandoutCrop — 用于裁剪每张纸多页的 pdf 讲义的工具。

https://cges30901.github.io/pdfhandoutcrop/ || pdfhandoutcrop^AUR

高级编辑器

Master PDF Editor — 功能强大的专有 PDF 编辑器。最新版本免费供非商业用途。-free 包已过时，但缺少水印。

https://code-industry.net/free-pdf-editor/ || masterpdfeditor^AUR, masterpdfeditor-free^AUR

PDF Studio — 类似于 Adobe Acrobat 的一体化专有 PDF 编辑器。

https://www.qoppa.com/pdfstudio/ || pdfstudio-bin^AUR

PDF4QT — 开源 PDF 编辑器。

https://jakubmelka.github.io/ || pdf4qt^AUR

高级编辑器对比

名称	费用（美元，终身）	页面标签	表单设计器	内容编辑（文本和图像）	优化 PDF	数字签名 PDF	许可证
Master PDF Editor	85.34	否	是	是	是	是	专有
Qoppa PDF Studio Standard	99	是	否	否	否	否	专有
Qoppa PDF Studio Pro	139	是	是	是	是	是	专有

PDF 工具

另请参阅 Ghostscript。

Camelot — Camelot：面向人类的 PDF 表格提取工具。

https://github.com/atlanhq/camelot || python-camelot^AUR, python-camelot-git^AUR

Coherent PDF — 用于操作 PDF 文件的专有非免费命令行工具，包括合并、加密、解密、缩放、裁剪、旋转、书签、图章、徽标、页码。

https://community.coherentpdf.com/ || cpdf^AUR

DiffPDF — 比较两个 PDF 文件中每页的文本或视觉外观。

https://gitlab.com/eang/diffpdf || diffpdf

mupdf-tools — 作为 MuPDF 一部分开发的工具，包含 mutool(1) 和 muraster。

https://mupdf.com || mupdf-tools

pdfcpu — 用于创建和修改 PDF 的命令行工具。

https://github.com/pdfcpu/pdfcpu || pdfcpu-bin^AUR

pdf_extbook — 提取带书签的 PDF 页面。

https://github.com/raffaem/pdf_extbook || pdf_extbook-git^AUR

pdfgrep — 用于在 PDF 文件中搜索文本的命令行实用程序。

https://pdfgrep.org/ || pdfgrep

pdfjam — 可用于将 PDF 进行 n-up 排版、连接、旋转和翻转，并将它们排列成适合书籍装订的格式。

https://github.com/DavidFirth/pdfjam || texlive-binextra

pdfminer.six — pdfminer 的社区维护分支，一个用于 PDF 文档的文本提取工具。

https://github.com/pdfminer/pdfminer.six || python-pdfminer

pdf2svg — 将 PDF 文件转换为 SVG 文件。

http://www.cityinthesky.co.uk/opensource/pdf2svg/ || pdf2svg

PDFtk — 用于对 PDF 文档执行日常操作的简单工具。

https://gitlab.com/pdftk-java/pdftk || pdftk

QPDF — 内容保留的 PDF 转换系统。

https://github.com/qpdf/qpdf || qpdf

Stapler — 使用 PyPDF2 库的 PDFtk 的轻量级替代品。

https://github.com/hellerbarde/stapler || stapler^AUR, stapler-git^AUR

Tabula — Tabula 是一个用于释放 PDF 文件中表格数据的工具。

https://tabula.technology || tabula^AUR, tabula-java^AUR

Vector Slicer — 从 SVG 导出多页 PDF。

https://gitlab.gnome.org/World/design/vector-slicer || vector-slicer

verapdf — 一个专门构建的开源文件格式验证器，涵盖所有 PDF/A 和 PDF/UA 部分及一致性级别。

https://verapdf.org || verapdf^AUR

命令代码片段

从图像创建 PDF

使用 GraphicsMagick

$ gm convert 1.jpg 2.jpg 3.jpg out.pdf

使用 ImageMagick

$ magick 1.jpg 2.jpg 3.jpg out.pdf

请注意，ImageMagick 的输出是有损的。要从 jpeg 无损创建 PDF，请使用 img2pdf。

连接 PDF

使用 Ghostscript

$ gs -dNOPAUSE -sDEVICE=pdfwrite -sOUTPUTFILE=out.pdf -dBATCH 1.pdf 2.pdf 3.pdf

使用 PDFtk

$ pdftk 1.pdf 2.pdf 3.pdf cat output out.pdf

使用 Poppler

$ pdfunite 1.pdf 2.pdf 3.pdf out.pdf

使用 QPDF

$ qpdf --empty --pages 1.pdf 2.pdf 3.pdf -- out.pdf

从 PDF 提取文本

使用 Poppler 并保持布局

$ pdftotext -layout in.pdf out.txt

另请参阅 pdftotext(1)。

使用 calibre

$ ebook-convert in.pdf out.txt

结果因应用程序和 PDF 文件而异。

解密 PDF

本节列出了解密 PDF 到未加密文件的命令。请注意，大多数 PDF 查看器也支持加密的 PDF。

使用 PDFtk

$ pdftk in.pdf input_pw password output out.pdf

使用 Poppler 转换为 PostScript

$ pdftops -upw password in.pdf out.ps

使用 QPDF

$ qpdf --decrypt --password=password in.pdf out.pdf

提示： 遗忘的密码可以使用 pdfcrack 恢复，请参阅 pdfcrack(1)。

加密 PDF

用户密码 用于加密，所有者密码 用于在文档解密后限制操作，更多信息请参阅 Wikipedia:PDF#加密和签名。

使用 PDFtk

$ pdftk in.pdf output out.pdf user_pw password

使用 PoDoFo

$ podofoencrypt -u user_password -o owner_password in.pdf out.pdf

使用 QPDF

$ qpdf --encrypt user_password owner_password key_length -- in.pdf out.pdf

其中 key_length 可以是 40、128 或 256。

从 PDF 提取图像

使用 poppler，将图像保存为 JPEG

$ pdfimages infile.pdf -j outfileroot

从 PDF 提取页面范围，拆分多页 PDF 文档

使用 Ghostscript 作为单个文件[6]

$ gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -dFirstPage=first -dLastPage=last -sOutputFile=outfile.pdf infile.pdf

使用 PDFtk 作为单个文件

$ pdftk infile.pdf cat first-last output outfile.pdf

使用 Poppler 作为单独的文件

$ pdfseparate -f first -l last infile.pdf outfileroot-%d.pdf

使用 QPDF 作为单个文件

$ qpdf --empty --pages infile.pdf first-last -- outfile.pdf

使用 mutool 作为单个文件

$ mutool clean -g infile.pdf outfile.pdf first-last

PDF 拼版 (nup)

PDF 拼版是将多个输入页面组合成一个输出页面的过程，布局成行x列网格。

可以使用 pdfjam 完成（请注意，pdfnup 和 pdfbook 等包装脚本已弃用）

$ pdfjam --nup rowsxcolumns input.pdf --outfile output.pdf

或使用 pdfsak

$ pdfsak --input-file input.pdf --output output.pdf --nup rows columns

检查元数据

使用 ExifTool

$ exiftool -All file.pdf

使用 Poppler

$ pdfinfo file.pdf

移除元数据

使用 ExifTool

$ exiftool -All= -overwrite_original input.pdf
$ mv input.pdf /tmp/temp.pdf
$ qpdf --linearize /tmp/temp.pdf input.pdf

需要线性化步骤以防止恢复已删除的元数据。请参阅这个 SuperUser 问题和相关的 ExifTool 论坛帖子。

使用 pdftk

许多 PDF 使用信息字典（旧式）和 XMP 流（新式）存储文档元数据。此 pdftk 命令完全从 PDF 中删除 XMP 流。它不会删除信息字典。

请注意，PDF 内的对象可能具有其自己独立的 XMP 元数据流，并且此命令不会删除这些流。它仅删除 PDF 的文档级 XMP 流。

$ pdftk input.pdf drop_xmp output output.pdf

减小 PDF 文件大小

可以通过设置适当的优化或压缩级别来减小 PDF 文件大小。

使用 Ghostscript，选择其一

$ ps2pdf -dPDFSETTINGS=/screen in.pdf out.pdf

或

$ gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/printer -sOutputFile=out.pdf in.pdf

有关不同的设置，请参阅文档。

还有 shrinkpdf^AUR，一个包装 gs 的脚本。

栅格化 PDF

这些命令会将您的 PDF 转换为图像。

使用 GraphicsMagick 将特定页面转换为图像文件

$ gm convert -density dpi infile.pdf[page] outfile.jpg

使用 ImageMagick 将特定页面转换为图像文件

$ magick convert -density dpi infile.pdf[page] outfile.jpg

使用 ImageMagick 将所有页面转换为另一个由每页一个图像文件组成的 PDF 文件

$ magick convert -density dpi infile.pdf outfile.pdf

警告： 这将大幅增加您的 PDF 文件大小。例如，如果您的打印机无法正确打印您的 PDF，请使用它。

使用 Poppler 将所有页面转换为每页一个图像文件

$ pdftoppm -jpeg -r dpi infile.pdf outfileroot

使用 Poppler 将特定页面转换为图像文件

$ pdftoppm -jpeg -r dpi -f page -singlefile infile.pdf outfileroot

分割 PDF 页面

使用 mupdf-tools 将每个页面垂直分割成两页

$ mutool poster -y 2 in.pdf out.pdf

可用于撤消简单的拼版。

添加图像

可以将图像添加到 PDF 中的任何位置

使用 ImageMagick (convert), xv^AUR 和 pdftk。（包装脚本）
使用 xournal^AUR
使用 LibreOffice

有关这些和其他解决方案的详细信息，请参见 StackExchange。

向 PDF 添加数字签名

jsignpdf^AUR 可以使用 GUI 和 CLI 中的 X.509 证书对 PDF 文件进行数字签名。

Okular 和 MuPDF 等阅读器可以使用数字签名对 PDF 进行签名。这需要 PFX 证书，可以使用 OpenSSL 命令创建

$ openssl req -x509 -days 365 -newkey rsa:2048 -keyout cert.pem -out cert.pem
$ openssl pkcs12 -export -in cert.pem -out cert.pfx

MuPDF 用户随后可以使用图形界面或其 mutool-sign 工具，使用 cert.pfx 对 PDF 进行签名。

Okular 用户必须将 cert.pfx 导入证书存储，例如默认 Firefox 配置文件中的证书存储。[7]^{[死链接 2024-01-13 ⓘ]} 使用 Firefox，可以通过设置 > 隐私与安全 > 查看证书 > 您的证书 > 导入 并选择 cert.pfx 来完成。之后，Okular 将提供此证书以在签名 PDF 时使用。

Libreoffice 也可以签名 PDF。[8]

从 PDF 中移除注释

使用 pdftk [9]

$ pdftk in.pdf output - uncompress | sed '/^\/Annots/d' | pdftk - output out.pdf compress

使用 perl-cam-pdf^AUR

$ rewritepdf.pl -C in.pdf out.pdf

有关更多信息，请参见 https://superuser.com/a/1051543。

添加页码

使用 pdfsak

$ pdfsak --input-file input.pdf --output output.pdf --text "\large \$page/\$pages" br 0.99 0.99 --latex-engine xelatex --font "Noto Regular"

添加页码标签

页码标签是 PDF 阅读器导航栏中显示的逻辑页码。例如，如果 PDF 的前几页是用罗马数字（I、II 等）编号的索引，而编号为“1”的页面对应于大于 1 的 PDF 页面，并且您希望导航栏中显示的页码与物理页面上显示的页码相对应，则页码标签非常有用。

这不应与在物理页面中添加页码混淆。请参阅 PDF 参考文档的第 12.4.2 节，以更好地理解页码标签。

使用 pagelabels-py，假设我们有一个名为 my_document.pdf 的 PDF，它有 12 页。

第 1 至 4 页应标记为 Intro I 至 Intro IV。
第 5 至 9 页应标记为 2 至 6。
第 10 至 12 页应标记为 Appendix A 至 Appendix C

我们可以发出以下命令列表

$ python3 -m pagelabels --delete "my_document.pdf"
$ python3 -m pagelabels --startpage 1 --prefix "Intro " --type "roman uppercase" "my_document.pdf"
$ python3 -m pagelabels --startpage 5 --firstpagenum 2 "my_document.pdf"
$ python3 -m pagelabels --startpage 10 --prefix "Appendix " --type "letters uppercase" "my_document.pdf"

注意： pagelabels-py 会将您的文件转换为 PDF 1.3 规范

使用 pdftk，创建一个包含标签的 metadata.txt 文件
```
PageLabelBegin
PageLabelNewIndex: 1
PageLabelStart: 1
PageLabelPrefix: Cover
PageLabelNumStyle: NoNumber
PageLabelBegin
PageLabelNewIndex: 2
PageLabelStart: 1
PageLabelPrefix: Back Cover
PageLabelNumStyle: NoNumber
PageLabelBegin
PageLabelNewIndex: 3
PageLabelStart: 1
PageLabelNumStyle: LowercaseRomanNumerals
PageLabelBegin
PageLabelNewIndex: 27
PageLabelStart: 1
PageLabelNumStyle: DecimalArabicNumerals 
```
- 其中
  PageLabelBegin
  
  表示将跟随新的页码标签定义
  
  PageLabelNewIndex
  
  是从其应用编号样式的 PDF 页面索引，从 1 开始计数。编号样式将持续到下一个页码标签，或者如果没有更多页码标签，则持续到文档末尾。
  
  PageLabelStart
  
  是起始编号。例如，如果您在此处指定 5，则页面将编号为 5、6、7、...
  
  PageLabelPrefix
  
  是在页码标签中放在数字之前的文本。
  
  PageLabelNumStyle
  
  可以是 DecimalArabicNumerals、UppercaseRomanNumerals、LowercaseRomanNumerals、UppercaseLetters、LowercaseLetters 或 NoNumber。
- 然后使用
```
pdftk book.pdf update_info_utf8 metadata.txt output book-with-metadata.pdf
```

有关更多详细信息，请参见这个 SuperUser 问题。

提取书签

使用 pdftk

$ pdftk file.pdf dump_data_utf8 | grep '^Bookmark'

使用 qpdf

$ qpdf --json --json-key=outlines file.pdf

添加书签

使用 pdftk

创建一个文本文件 bookmark_definitions.txt，其中包含以下格式的书签定义

BookmarkBegin
BookmarkTitle: Chapter 1
BookmarkLevel: 1
BookmarkPageNumber: 1
BookmarkBegin
BookmarkTitle: Chapter 1.1
BookmarkLevel: 2
BookmarkPageNumber: 2
BookmarkBegin
BookmarkTitle: Chapter 1.2
BookmarkLevel: 2
BookmarkPageNumber: 3
BookmarkBegin
BookmarkTitle: Chapter 1.3
BookmarkLevel: 2
BookmarkPageNumber: 4
BookmarkBegin
BookmarkTitle: Chapter 1.3.1
BookmarkLevel: 3
BookmarkPageNumber: 5
BookmarkBegin
BookmarkTitle: Chapter 2
BookmarkLevel: 1
BookmarkPageNumber: 6

其中

BookmarkBegin: 表示新的书签定义
BookmarkTitle: 书签的标题
BookmarkLevel: 书签在层次结构中的级别
BookmarkPageNumber: 书签重定向到的页码

在此示例中，以上文件将创建以下书签结构

章节 1
- 章节 1.1
- 章节 1.2
- 章节 1.3
  - 章节 1.3.1
章节 2

使用以下命令应用书签

$ pdftk input.pdf update_info_utf8 bookmark_definitions.txt output output.pdf

提取书签中包含的页面

要提取书签中包含的页面，您可以使用 pdf_extbook-git^AUR。

使用 pdf_extbook file，系统将提示您选择要提取页面的书签以及保存位置。要提取给定层次结构级别的所有书签

$ pdf_extbook file -a level output_file_stem

移除空白页

可以使用以下脚本从 PDF 文件中删除空白页（致谢：SuperUser 帖子）

#!/bin/sh

IN="$1"
filename=$(basename "${IN}")
filename="${filename%.*}"
PAGES=$(pdfinfo "$IN" | grep ^Pages: | tr -dc '0-9')

non_blank() {
	for i in $(seq 1 $PAGES); do
		PERCENT=$(gs -o - -dFirstPage=${i} -dLastPage=${i} -sDEVICE=ink_cov "$IN" | grep CMYK | nawk 'BEGIN { sum=0; } {sum += $1 + $2 + $3 + $4;} END { printf "%.5f\n", sum } ')
		if [ $(echo "$PERCENT > 0.001" | bc) -eq 1 ]; then
			echo $i
			#echo $i 1>&2
		fi
		echo -n . 1>&2
	done | tee "$filename.tmp"
	echo 1>&2
}

set +x
pdftk "${IN}" cat $(non_blank) output "${filename}_noblanks.pdf"

像这样使用它：pdf_remove_blank_pages input.pdf。

该脚本需要 pdftk、nawk 和 ghostscript。

查找 PDF 中使用的字体

pdffonts(1) 命令（来自 poppler）可用于查找 PDF 使用了哪些字体，以及这些字体是否已嵌入其中

$ pdffonts file.pdf

name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
Times-Roman                          Type 1            Custom           no  no  no       8  0
Times-Italic                         Type 1            Standard         no  no  no       9  0
Times-Bold                           Type 1            Standard         no  no  no       7  0
Helvetica                            Type 1            Standard         no  no  no      34  0
Helvetica-Bold                       Type 1            Standard         no  no  no      35  0

当 PDF 中的文本显示不正确时，可以使用它来确定是否需要安装缺少的字体或其度量兼容等效项。

修复损坏的 PDF 文件

使用 ghostscript

$ gs -o repaired.pdf -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress corrupted.pdf

使用 poppler

$ pdftocairo -pdf corrupted.pdf repaired.pdf

使用 mupdf-tools

$ mutool clean corrupted.pdf repaired.pdf

参考：https://superuser.com/q/278562

将 PDF 转换为 PDF/A 标准

使用 ghostscript

$ gs -dPDFA -dBATCH -dNOPAUSE -sColorConversionStrategy=UseDeviceIndependentColor -sDEVICE=pdfwrite -dPDFACompatibilityPolicy=2 -sOutputFile=document_pdfa.pdf document.pdf

参考：https://stackoverflow.com/a/56459053

验证 PDF/A 合规性

使用 verapdf^AUR，您可以验证您的 PDF 是否符合不同版本的 PDF/A 标准

$ verapdf --flavour 1a --format text document.pdf

DjVu 工具

DjVuLibre 提供了许多命令行工具，例如 ddjvu(1)。
img2djvu — 基于 DjVu Libre 和 ImageMagick 的单程 DjVu 编码器。

https://github.com/ashipunov/img2djvu || img2djvu-git^AUR

pdf2djvu — 从 PDF 文件创建 DjVu 文件。

https://jwilk.net/software/pdf2djvu || pdf2djvu^AUR

将 DjVu 转换为图像

将 Djvu 分解为单独的页面

$ djvmcvt -i input.djvu /path/to/out/dir output-index.djvu

将 Djvu 页面转换为图像

$ ddjvu --format=tiff page.djvu page.tiff

将 Djvu 页面转换为 PDF

$ ddjvu --format=pdf inputfile.djvu ouputfile.pdf

您也可以使用 --page 导出特定页面

$ ddjvu --format=tiff --page=1-10 input.djvu output.tiff

这将把第 1 页到第 10 页转换为一个 tiff 文件。

处理图像

您可以使用 scantailor-advanced 来

修复方向
分割页面
倾斜校正
裁剪
调整边距

从图像制作 DjVu

有一个有用的脚本 img2djvu-git^AUR。

$ img2djvu -c1 -d600 -v1 ./out

它将从 ./out 目录中的所有文件创建 600 DPI 的 out.djvu。

或者，您可以尝试 didjvu^AUR，它似乎可以创建更小的文件，尤其是在背景清晰的图像上。

PostScript 工具

pstotext — 将 PostScript 文件转换为文本。

https://www.cs.wisc.edu/~ghost/doc/pstotext.htm || pstotext^AUR

Ghostscript

ps2pdf

ps2pdf 是 ghostscript 的包装器，用于将 PostScript 转换为 PDF

$ ps2pdf -sPAPERSIZE=a4 -dOptimize=true -dEmbedAllFonts=true YourPSFile.ps

说明

使用 -sPAPERSIZE=something 定义纸张尺寸。有关有效的 PAPERSIZE 值，请参见 [10]^{[死链接 2022-09-22 ⓘ]}。
-dOptimize=true 使创建的 PDF 针对加载进行优化。
-dEmbedAllFonts=true 使字体始终看起来很好。

注意： 您无法在 ps2pdf 中选择纸张方向。如果您的输入 PS 文件是健康的，它已经包含方向信息。如果您尝试使用封装的 PS 文件，如果它不适合您指定的 -sPAPERSIZE，您将遇到问题，因为 EPS 文件通常不包含纸张方向信息。一种解决方法是在 ghostscript 设置中创建一个新纸张（例如，称其为“slide”），并将其用作 -sPAPERSIZE=slide。