有關 PDF 文件的延伸處理（一）

在研究某些課題的時候，不免會遇到許多 PDF 文件。

PDF 文件本身沒有問題，有問題的是他們若是由「圖片組成」的文件，而我們只是要閱讀與列印的話，其實也沒有問題，但若要對 PDF裡面的文字進行再處理，就會很麻煩。

如果可以將這些 PDF 文件中圖片裡的文字，自動辨識且轉換成文字，對我來說，那將是一件很美好的事情。

目前 OLOCR(https://olocr.com/zh-TW)這個網路服務，可以達成我的需求。

對於這類網路服務，基本上我的需求很簡單：「可多頁處理」、「不上傳資料」。

OLOCR(https://olocr.com/zh-TW) 除了可以滿足前兩者之外，他還「免註冊」！

基本上，連上之後，就會使用了，而文字辨識重點有二：「準確性」與「抗雜訊性能力」。

所以，我將我的讀書註記（共有3頁，且頁面有不同顏色劃記的雜訊）拿來實驗，結果如下：

效果令我相當滿意，而且只要在文件上「按右鍵」，還可以將辨識結果，存成文字檔，這樣就能對於文件內容進行再處理了。

除了「PDF」文件之外，其實圖片也可以辨識，不過一次只能一張，不能批次處理，所以如果是我，我便會將所有的圖片按照順序，轉成 PDF 文件，然後再來進行文字辨識處理。

發佈留言

發佈留言取消回覆