好用的免費開源 PDF OCR 軟體 - OCRmyPDF

修改論文時常需要處理老師的手稿，因為老師喜歡將論文印出來批改。然而這也造成了我小小的不便，由於我最終還是需要將老師的修改整合到 LaTeX 原始碼中，不斷地往返於紙本以及電子檔相當沒效率。以 pdf deskew 為關鍵字進行搜尋，找到的都是需要付費的商業軟體如 Acrobat 等，由於目前沒有這麼迫切需要這個功能，還是先以免費的為主。接著改用 pdf deskew github，就找到了 OCRmyPDF 這套開源軟體。

OCRmyPDF 最主要的功能其實是進行光學辨識 (OCR)，也就是將圖檔轉換為文字檔。其所用的 OCR 引擎為 Tesseract，是一套相當先進的軟體，在最新版 Tesseract 4 甚至使用了基於類神經網路的辨識方法。這兩個專案目前 (2020/8) 都相當活躍，幾乎每天都有 commit，可以期待它們的功能會更加完善。

安裝方法

官方說明已經相當詳細，此處只簡單說明我使用的方法。由於我的主力機使用 Windows，官方推薦使用 WSL 進行安裝，因此首先需要安裝 WSL，此步驟同樣可以參考官方文件。我安裝的發行版為 Ubuntu 20.04，啟動後輸入 sudo apt update && sudo apt install -y ocrmypdf 即可完成安裝。