常見問題


一、註冊與登入

可先透過「試用平台」測試手中持有文本辨識的正確率後, 再到平台首頁 https://ocr.ascdc.tw/ ,點擊右上角「註冊」按鈕即可進行註冊,詳細操作可參考【註冊及登入】。

平台依您所屬的機構分為 3 種類型:
  1. 合作機構:若您的所屬機構為平台約定之合作機構,將可獲得較高的每日辨識書頁及總儲存空間。
  2. 學術單位:只要您的信箱為學術單位信箱,e.g. 網域包含 .edu. 之信箱,即可獲得每日辨識 30 頁及總共 250 MB 儲存空間。
  3. 非上述兩者:需進行人工審核,審核完成後可獲得與學術單位相同的使用額度。
    欲加入合作機構,請來信 s9134131@gate.sinica.edu.tw 與我們聯繫。

    我們提供一個開放且可協作的文字辨識及校正平台,在這裡您可以
    • 建構自己的藏書櫃,將每一本書的書頁圖片轉化為文字
    • 功能強大的校正協作功能,可自行招集夥伴或透過熱心的平台會員協作
    • 校對完成後,平台也提供校對結果下載

    由於平台資源有限,因此在提供會員文字辨識服務前,需先做資格審核,通過審核的會員才可以使用本平台提供之服務。

    使用本平台時,若有被指派協作工作的需求,註冊時請務必勾選「允許帳號被搜尋」,如此一來便可接受其他會員指派的協作工作。若已完成註冊且通過驗證,往後亦可於左側選單「帳號管理」>「個人資料」中進行變更。

    一方面為了避免有心人士透過網路爬蟲 (Crawler, Bot) 對本站進行不正當的操作,一方面則是透過會員們協助框選正確答案,可有效增加平台 OCR 辨識的正確性。

    如果您在註冊時填入的信箱中找不到驗證信,可至垃圾郵件尋找,若仍未收到驗證信,可使用您註冊時填入的信箱寄送 email 至 s9134131@gate.sinica.edu.tw 告知平台管理員,待確認後將協助您啟用帳號。

    點擊左下方「問題通報」與我們聯繫,並請盡可能詳述問題的細節。

    二、書本、書頁與文字辨識

    登入後平台後,左側選單「我的書櫃」>「新增藏書」即可新增書本,詳細操作可參考【新增藏書】。

    新增書本完成後即自動前往「新增書頁」頁面,亦可從左側選單之「我的書櫃」>「新增書頁」進入,詳細操作可參考【新增書頁】。

    平台可接受包含:圖片檔 (jpg, png, tiff … 等)、PDF 及 ZIP 檔。

    • 可上傳之檔案格式包含:圖片檔PDFZIP
    • 檔案名稱僅接受半形之大小寫英文數字減號 -底線 _
    • 建議以相同位數流水號依序命名,例如:san_0001.jpg, san_0002.jpg
    • 單次上傳限制為 500 個檔案,每個檔案上限為 1GB
    • 平台將對上傳的書頁進行調整,請自行保留書頁原圖

    由於文字辨識需要處理時間,且同時間有其他會員也在進行辨識,因此書頁上傳完成後,您的書頁將被加到工作佇列中,請耐心等候,辨識進度可從左側選單「辨識進度」中查看。

    由於平台資源有限,為了服務更多需要進行文字辨識的使用者,我們不得不限制會員的每日使用額度,避免平台資源被少數會員佔據。

    進入到上傳錯誤的書本、或從左側選單「瀏覽書頁」中找到錯誤的書頁,選擇錯誤的書頁後,即可透過右上角的「刪除」按鈕進行刪除,詳細操作可參考【刪除書頁】。

    刪除書頁時,平台會將所有此書頁的圖片、校正歷程等一併刪除,且刪除後沒有辦法以任何方式回復,請會員們刪除前務必再次確認,若不小心刪錯書頁,只能將書頁重新上傳進行辨識。

    找到有問題的書頁,點擊書頁名稱旁邊的鉛筆圖示即可進行檔名的修改,詳細操作可參考【修改書頁名稱】。

    書頁剛上傳時,平台對於書頁進行文字辨識,所有書頁的校對版本皆標示為「最初版」,校正人標示為「ocr」,意即「最初上傳給 OCR 平台進行文字校正的版本」。往後該書頁有任何校正變動,皆可從「校對版本」及「校對人」一目了然。

    三、校正功能

    OCR 文字辨識的高正確率,雖可減輕不少校對負擔,但仍有些部份需要處理,其中包含
    • 文字是否正確被框選出來
    • 辨識出來的文字是否正確
    • 去除錯誤或非必要輸出的區域
    • 加入註解 … 等
    因此我們同時也提供了校正功能,讓書本持有者及其他會員可一同協作校正。

    我們將校正分為兩大類型校正及三種編輯模式:
    1. 區域校正:用來處理「框選文字」相關操作,其中又包含「文字」「行」及「區塊」的框選
    2. 文字校正:主要修改文字正確性
    校正期間可即時預覽校正結果,若發現錯字、排版問題或輸出結果不正確,隨時皆能在各類型及模式中切換,詳細操作可參考【校正流程及介面】。

    每個校正工作皆對應不同滑鼠右鍵選單,若您的瀏覽器有安裝滑鼠右鍵解除工具,例如:Allow Right Click。將會影響校正平台的滑鼠右鍵選單功能,可於使用本平台時暫時關閉相關擴充功能,或使用無痕模式進行校正。

    可切換回「區域校正」模式補上缺少的文字繪框及文字;亦可於「文字校正」模式下 > 文字框上點擊滑鼠右鍵 > 插入文字 > 插入文字在前 / 插入文字在後 / 編輯整行文字,將遺漏的文字補足。

    可透過左側選單「校正工作」>「新增校正工作」,並可設定校正工作之開放程度
    1. 「公開」表示允許平台上所有會員協助校正
    2. 「限制」則可自行選擇參與此項校正工作的會員(此會員必須開啟「允許帳號被搜尋」)
    而其他會員可在「校正工作」>「協助他人校正」中查看公開或是被指派的工作,詳細操作可參考【新增校正工作】及【協助他人校正】。

    當您對某書頁進行校正時,該書頁狀態會調整成「鎖定」,鎖定狀態的書頁在 2 個小時內只對您開放,其他會員(包含書本持有者)皆無法對該書頁進行操作,此鎖定機制可有效避免重工及心血被蓋掉的狀況,校正完成後請務必點擊左上方「校正完成」按鈕,以解除該書頁之鎖定狀態,詳細說明可參考【校正注意事項】。

    超過 2 小時未完成校正,平台自動解除該書頁鎖定狀態,並將未完成的校正結果暫存於瀏覽器內,下次開啟此頁時若書頁版本並未變更(期間無其他使用者進行校正),平台將自動載入前次校正進度,詳細說明可參考【校正注意事項】。

    平台預設儲存每一次的校對版本,遇此狀況,書本持有者可將書頁版本設定回正確的校對版本;若您的校正工作設定成「公開」,所有會員皆可進行校正,此時可將校正工作設定成「限制」,僅允許信任的會員進行校正,或關閉校正工作,取消其他會員協作的權限,詳細操作可參考【新增校正工作】。

    若一本書內有許多相同的字或詞辨識錯誤,除了使用者手動修正外,平台另外提供:
    • 批量文字取代(手動):於校正頁面右上角「進階」->「批量文字取代」,即可將辨識錯誤的詞,批量修正,詳細操作可參考【批量文字取代】。
    • 自動文字修正(自動):平台利用使用者已校正完成的書頁結果,對未完成校正的書頁進行自動修正。

    • 書頁未上傳,可於新增書頁時,透過建立版面配置將不需要的區塊移除。
    • 書頁已上傳,可於「瀏覽書頁」頁面右上角「進階」->「批量移除辨識區域」進行移除,詳細操作可參考【批量移除辨識區域】。

    透過「我的藏書」與「校正工作」皆可下載校正結果,輸出格式及詳細操作可參考【下載校正結果】;「校正頁面」亦可下載單頁校正結果,操作可參考【預覽及下載】。

    平台開放所有註冊會員皆可下載純文字PDF 檔,針對合作機構之進階會員另提供 HOCR特定客製化格式下載。

    四、校正工作

    每個人可對自己上傳的書本進行校正,唯新增校正工作後,才可讓他人進行書本校正,新增校正工作時可設定該工作的開放程度:
    • 私人:限指定的人員參與該校正工作。
    • 公開:平台內所有會員皆可參與該校正工作。
    詳細操作可參考【新增校正工作】。

    使用者註冊時需勾選「允許帳號被搜尋」,若註冊時無勾選,可於登入平台後,側邊欄「帳號管理」->「個人資料」中勾選,詳細操作可參考【帳號管理】。

    共同管理者可共同管理校正工作,包含:修改校正工作資訊、調整參與校正人員及下載全書校正結果 ... 等權限,若您需要設定校正工作的共同管理者,可於新增或修改校正工作時,將特定使用者提升為共同管理者,詳細操作可參考【新增校正工作】。

    某些情況下您邀請使用者協同校正,但不希望協同校正者可以取得整本書的校正結果,可於新增或修改校正工作時,透過「所有校正人員下載權限」或「個別設定參與人員校正權限」進行設定。下載校正結果的權限包含:不可下載、限下載該書頁及可下載全書,詳細操作可參考【新增校正工作】。

    透過「我的藏書」與「校正工作」皆可下載校正結果,輸出格式及詳細操作可參考【下載校正結果】;「校正頁面」亦可下載單頁校正結果,操作可參考【預覽及下載】。