可移植文档格式(PDF)是一种文件格式,有助于以独立于应用程序软件,硬件和操作系统的方式呈现数据。
每个PDF文件都包含固定布局平面文档的说明,包括显示文本,字体,图形和其他信息。
有几个库可用于通过程序创建和操作PDF文档,例如 -
Adobe PDF库 - 该库提供C++,.NET和Java等语言的API,使用此库可以编辑,查看打印和从PDF文档中提取文本。
格式化对象处理器 - 由XSL格式化对象和输出独立格式化程序驱动的开源打印格式化程序。 主要输出目标是PDF。
iText - 这个库提供了Java, C# 和其他.NET语言等语言的API,使用这个库可以创建和操作PDF,RTF和HTML文档。
JasperReports - 这是一个Java报告工具,可在PDF文档中生成报告,包括Microsoft Excel,RTF,ODT,逗号分隔值和XML文件。
Apache PDFBox是一个开源的Java库,支持PDF文档的开发和转换。 使用这个库,可以开发创建,转换和操作PDF文档的Java程序。
除此之外,PDFBox还包含一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。
下面列出PDFBox的特点 -
PNG
或JPEG
。以下是PDFBox的应用 -
Apache Nutch - Apache Nutch是一款开源的网络搜索软件。它建立在Apache Lucene的基础上,添加了一些特定于web的内容,例如:爬虫,链接图数据库,用于HTML和其他文档格式的解析器等。
Apache Tika - Apache Tika是一个使用现有解析器库从各种文档检测和提取元数据和结构化文本内容的工具包。
以下是PDFBox的四个主要组件 -