Java 專案 PDFBox 的下載與建置過程

全球程式

簡介

程式語言

軟體工具

全球市場

程式取得

程式管理

程式運用

資源列表

人物列表

版本管理

SVN

GIT

Mercurial

程式銀行

GitHub

GoogleCode

SourceForge

CodeProject

語言分類

C 語言

C++

JavaScript

Java

Verilog

專案研究

gcc

V8

Arduino

R

UNIXxv6

tcc

OpenGL

GTK

Qt

OpenCV

開發環境

GNU

node.js

icarus

Linux

Windows

Eclipse

VirtualBox

QEMU

CScope

Vim

訊息

相關網站

參考文獻

最新修改

簡體版

English

  1. http://pdfbox.apache.org/

首先先取得函式庫試用,我們想測試將 PDF 解成文字的功能是否正常,於是參考下列文章:

然後根據其指示,操作如下:

D:\code\pdfbox>java -jar pdfbox-app-1.5.0.jar org.apache.pdfbox.ExtractText test
.pdf
usage: java pdfbox-app-x.y.z.jar <command> <args..>

結果居然失敗 (莫非定律又出現了 ???),於是我猜測改用下列指令。

D:\code\pdfbox>java -jar pdfbox-app-1.5.0.jar ExtractText test.pdf

結果就成功了。

但是當我們使用中文 PDF 文件作為輸入時,就發生了以下錯誤:

D:\code\pdfbox>java -jar pdfbox-app-1.5.0.jar ExtractText chinese.pdf
2011/5/9 下午 02:43:06 org.apache.pdfbox.pdmodel.font.PDCIDFont determineEncoding
嚴重的: Error: Could not parse predefined CMAP file for 'Adobe-WinCharSetFFFF-UCS2'
2011/5/9 下午 02:43:06 org.apache.pdfbox.pdmodel.font.PDCIDFont determineEncoding
嚴重的: Error: Could not parse predefined CMAP file for 'Adobe-WinCharSetFFFF-UCS2'
2011/5/9 下午 02:43:06 org.apache.pdfbox.util.PDFStreamEngine processOperator
資訊: unsupported/disabled operation: EI

然後我們 Google 了一下,用「Could not parse predefined CMAP file PDFBox」當關鍵字,於是發現下列留言,顯然 PDFBox 無法完全解決中文字的問題 (爛透了….,別浪費時間了)。

https://issues.apache.org/jira/browse/PDFBOX-940


當我們取得原始碼之後,打開 README.txt 檔案,看到下列段落:

===================================================
Apache PDFBox <http://pdfbox.apache.org/>
===================================================

PDFBox is an open source Java library for working with PDF documents.
This project allows creation of new PDF documents, manipulation of
existing documents and the ability to extract content from documents.
PDFBox also includes several command line utilities. PDFBox is published
under the Apache License, Version 2.0.

You need Java 5 (or higher) and Maven 2 <http://maven.apache.org/> to
build PDFBox. The recommended build command is:

    mvn clean install

The default build will compile the Java sources and package the binary
classes into jar packages. See the Maven documentation for all the
other available build options.

...

參考文獻

  1. PDFBox - 擷取PDF檔案中的純文字 — http://blog.ring.idv.tw/comment.ser?i=309

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License