要在Java中提取PDF文档的文本内容,可以使用Apache PDFBox库。以下是一个简单的示例代码,演示如何使用PDFBox提取文本内容:
import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import java.io.File; import java.io.IOException; public class PDFReader { public static void main(String[] args) { try { // Load PDF document PDDocument document = PDDocument.load(new File("example.pdf")); // Create PDFTextStripper PDFTextStripper pdfTextStripper = new PDFTextStripper(); // Extract text String text = pdfTextStripper.getText(document); // Print extracted text System.out.println(text); // Close the document document.close(); } catch (IOException e) { e.printStackTrace(); } } }
在这个示例中,我们加载一个名为example.pdf的PDF文档,并使用PDFBox的PDFTextStripper类提取文本内容。最后,我们将提取的文本内容打印到控制台上。
请注意,要运行此示例代码,您需要将Apache PDFBox库添加到您的项目中。您可以在Maven中添加以下依赖项来包含PDFBox库:
org.apache.pdfbox pdfbox 2.0.24
您可以通过以下链接下载Apache PDFBox库:https://pdfbox.apache.org/