Лучший инструмент для проверки файлов PDF Stack overflow на русском

Лучший инструмент для проверки файлов PDF? [закрыто]

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow.

Закрыт 2 года назад .

Как я могу проверить файлы PDF, желательно с помощью инструмента?

Пример использования: я пытаюсь программно сгенерировать файлы PDF (с помощью iText). У меня проблемы с получением определенных макетов, но у меня есть файлы PDF с текстом, расположенным так, как я хочу (сгенерированный из Word). Я хотел бы перепроектировать, как они это делают.

PDF Inspector вроде бы хорош, но я ищу что-нибудь для Windows.

10 ответов 10.

Adobe Acrobat имеет очень крутой, но довольно хорошо скрытый режим, позволяющий просматривать файлы PDF. Я написал статью в блоге, объясняющую это, на https://blog.idrsolutions.com/2009/04/viewing-pdf-objects/

Помимо инструментов на основе графического интерфейса, упомянутых в других ответах, существует несколько инструментов командной строки, которые могут преобразовать исходный исходный код PDF в другое представление, которое позволяет вам проверять (теперь измененный файл) с помощью текстового редактора. Все перечисленные ниже инструменты работают в Linux, Mac OS X, других системах Unix или Windows..

qpdf (мой любимый)

Используйте qpdf для распаковки (большинства) потоков объектов, а также для разделения объектов ObjStm на отдельные косвенные объекты:

qpdf описывает себя как инструмент, "структурные преобразования с сохранением содержимого в файлах PDF" .

Затем просто откройте и проверьте несжатый файл qpdf.pdf в своем любимом текстовом редакторе. Большая часть ранее сжатых (и, следовательно, двоичных) байтов теперь будет обычным текстом..

mutool.

Существует также инструмент командной строки mutool, который поставляется в комплекте со средством просмотра PDF-файлов MuPDF (который является дочерним продуктом Ghostscript, созданным той же компанией Artifex). Следующая команда также распаковывает потоки и упрощает их просмотр в текстовом редакторе:

подофунсжать.

PoDoFo — это библиотека FreeSoftware / OpenSource forex trading for beginners pdf для работы с форматом PDF, которая включает в себя несколько инструментов командной строки, включая podofouncompress. Используйте это так, чтобы распаковать потоки PDF:

peepdf.py.

PeePDF — это инструмент на основе Python, который помогает вам исследовать файлы PDF. Его первоначальная цель заключалась в исследовании и анализе вредоносных программ на основе PDF, но я считаю полезным также исследовать структуру полностью безопасных файлов PDF..

Его можно использовать в интерактивном режиме для "просматривать" объекты и потоки, содержащиеся в PDF.

Я не буду приводить здесь пример использования, а только ссылку на его документацию:

pdfid.py и pdf-parser.py.

pdfid.py и pdf-parser.py — два инструмента PDF от Дидье Стивенса, написанные на Python..

Их предыстория также помогает исследовать вредоносные PDF-файлы, но я также считаю полезным анализировать структуру и содержимое безопасных PDF-файлов..

Вот пример того, как я извлекал бы несжатый поток объекта PDF №. 5 в файл * .dump:

Заключительные примечания.

Обратите внимание, что некоторые двоичные части внутри PDF-файла не обязательно являются несжимаемыми (или декодируемыми в читаемый человеком код ASCII), потому что они встроены и используются в своем собственном формате внутри PDF-файлов. Такие части PDF представляют собой изображения JPEG, шрифты или цветовые профили ICC..

Если вы сравните вышеуказанные инструменты и приведенные примеры командной строки, вы обнаружите, что НЕ все они производят одинаковые результаты. Попытка сравнить их на предмет их различий сама по себе может помочь вам лучше понять природу синтаксиса PDF и формата файла..

Похожие статьи