0%

好用的免費開源 PDF OCR 軟體 - OCRmyPDF

修改論文時常需要處理老師的手稿,因為老師喜歡將論文印出來批改。然而這也造成了我小小的不便,由於我最終還是需要將老師的修改整合到 LaTeX 原始碼中,不斷地往返於紙本以及電子檔相當沒效率。以 pdf deskew 為關鍵字進行搜尋,找到的都是需要付費的商業軟體如 Acrobat 等,由於目前沒有這麼迫切需要這個功能,還是先以免費的為主。接著改用 pdf deskew github,就找到了 OCRmyPDF 這套開源軟體。

OCRmyPDF 最主要的功能其實是進行光學辨識 (OCR),也就是將圖檔轉換為文字檔。其所用的 OCR 引擎為 Tesseract,是一套相當先進的軟體,在最新版 Tesseract 4 甚至使用了基於類神經網路的辨識方法。這兩個專案目前 (2020/8) 都相當活躍,幾乎每天都有 commit,可以期待它們的功能會更加完善。

安裝方法

官方說明已經相當詳細,此處只簡單說明我使用的方法。由於我的主力機使用 Windows,官方推薦使用 WSL 進行安裝,因此首先需要安裝 WSL,此步驟同樣可以參考官方文件。我安裝的發行版為 Ubuntu 20.04,啟動後輸入 sudo apt update && sudo apt install -y ocrmypdf 即可完成安裝。

使用

很簡單,使用如下指令即可達成:
ocrmypdf --deskew input.pdf output.pdf
其中 output.pdf 就是轉成文字並且轉正的 PDF 檔。以下為轉換前的 PDF 檔:

轉換後:

OCRmyPDF 強大的地方在於,他可以接受一定的雜訊,例如原本的 PDF 檔有批改的筆跡,OCRmyPDF 可以正確地分辨論文的內容以及筆跡,只辨識並轉正論文內容,筆跡只會被轉正且維持在正確的相對位置。更棒的是文字內容會被辨識成文字檔,因此可以選取或複製,尋找修改的地方也就更容易了。

圖片內文來源:Extending IoT/M2M system scalability by network slicing