PDF格式研究簡介檔案結構Stream 編碼轉為XML相關工具OpenPDF訊息相關網站參考文獻最新修改簡體版English |
網路上有各式各樣的 PDF 免費工具可以使用,例如 xpdf, PDFBox, Multivalent 等等,但是、通常這些工具對於中文文字的使用都有些問題,有些必須要加裝語言包並進行設定調整(但我不會),因此、為了製作 PDF 搜尋引擎與分析工具,我們撰寫了一組程式,其壓縮檔在 PdfTree.zip 中,可以用來將 PDF 檔案中的文字抽出並轉為純文字格式或 XML 格式,這個程式可以處理Identity-H、ETenms-B5-H、嵌入式的字集等都沒有問題,但還沒加入簡体中文、日文與韓文等字集。 對於 PDF 的一般用戶而言,最常使用的是將 Word 等文件格式轉換為 PDF 格式,要做這件事相當簡單,您可以安裝 PrimoPDF 這個免費的軟體,安裝好後會在你的電腦中看到一台名稱為 PrimoPDF 的印表機,不管任何文件、只要您在列印時選擇印出到這台印表機上,PrimoPDF 就會將文件印成一個 PDF 檔案,如此、任何文件都可以輕易的轉換成 PDF 文件了。(Adobe 公司也有出一個類似的軟體,稱為 Adobe Distiller,但是要花錢購買) 除了上述的解密工具之外,網路上有各式各樣的 PDF 免費工具可以使用,例如 xpdf, PDFBox, Multivalent 等等,但是、通常這些工具對於中文文字的使用都有些問題,有些必須要加裝語言包並進行設定調整(但我不會),因此、為了製作 PDF 搜尋引擎與分析工具,我們撰寫了一組程式,其壓縮檔在 PdfTree.zip 中,可以用來將 PDF 檔案中的文字抽出並轉為純文字格式或 XML 格式,這個程式可以處理Identity-H、ETenms-B5-H、嵌入式的字集等都沒有問題,但還沒加入簡体中文、日文與韓文等字集。 對於 PDF 的一般用戶而言,最常使用的是將 Word 等文件格式轉換為 PDF 格式,要做這件事相當簡單,您可以安裝 PrimoPDF 這個免費的軟體,安裝好後會在你的電腦中看到一台名稱為 PrimoPDF 的印表機,不管任何文件、只要您在列印時選擇印出到這台印表機上,PrimoPDF 就會將文件印成一個 PDF 檔案,如此、任何文件都可以輕易的轉換成 PDF 文件了。(Adobe 公司也有出一個類似的軟體,稱為 Adobe Distiller,但是要花錢購買) 相關軟體比較這些的 PDF 轉換工具當中,有些可以將 PDF 中的文字抽取出來,以下是我們所知的相關工具程式列表:
經過我們的測試 (在 MS Windows XP上),這些轉換工具的在處理各種語言的文件上,表現狀況如下:
參考文獻
http://www.softhome.com.tw/html/soft_product.php?re_valu=5165 |
PDF 的相關工具
page revision: 5, last edited: 19 Oct 2010 09:14
Post preview:
Close preview