常見問題
一、註冊與登入
平台依您所屬的機構分為 3 種類型:
- 合作機構:若您的所屬機構為平台約定之合作機構,將可獲得較高的每日辨識書頁及總儲存空間。
- 學術單位:只要您的信箱為學術單位信箱,e.g. 網域包含 .edu. 之信箱,即可獲得每日辨識 30 頁及總共 250 MB 儲存空間。
- 非上述兩者:需進行人工審核,審核完成後可獲得與學術單位相同的使用額度。
我們提供一個開放且可協作的文字辨識及校正平台,在這裡您可以
- 建構自己的藏書櫃,將每一本書的書頁圖片轉化為文字
- 功能強大的校正協作功能,可自行招集夥伴或透過熱心的平台會員協作
- 校對完成後,平台也提供校對結果下載
由於平台資源有限,因此在提供會員文字辨識服務前,需先做資格審核,通過審核的會員才可以使用本平台提供之服務。
使用本平台時,若有被指派協作工作的需求,註冊時請務必勾選「允許帳號被搜尋」,如此一來便可接受其他會員指派的協作工作。若已完成註冊且通過驗證,往後亦可於左側選單「帳號管理」>「個人資料」中進行變更。
一方面為了避免有心人士透過網路爬蟲 (Crawler, Bot) 對本站進行不正當的操作,一方面則是透過會員們協助框選正確答案,可有效增加平台 OCR 辨識的正確性。
如果您在註冊時填入的信箱中找不到驗證信,可至垃圾郵件尋找,若仍未收到驗證信,可使用您註冊時填入的信箱寄送 email 至 s9134131@gate.sinica.edu.tw 告知平台管理員,待確認後將協助您啟用帳號。
點擊左下方「問題通報」與我們聯繫,並請盡可能詳述問題的細節。
二、書本、書頁與文字辨識
登入後平台後,左側選單「我的書櫃」>「新增藏書」即可新增書本,詳細操作可參考【新增藏書】。
新增書本完成後即自動前往「新增書頁」頁面,亦可從左側選單之「我的書櫃」>「新增書頁」進入,詳細操作可參考【新增書頁】。
平台可接受包含:圖片檔 (jpg, png, tiff … 等)、PDF 及 ZIP 檔。
- 可上傳之檔案格式包含:圖片檔、PDF 及 ZIP
- 檔案名稱僅接受半形之大小寫英文、數字、減號 - 及底線 _
- 建議以相同位數流水號依序命名,例如:san_0001.jpg, san_0002.jpg
- 單次上傳限制為 500 個檔案,每個檔案上限為 1GB
- 平台將對上傳的書頁進行調整,請自行保留書頁原圖
由於文字辨識需要處理時間,且同時間有其他會員也在進行辨識,因此書頁上傳完成後,您的書頁將被加到工作佇列中,請耐心等候,辨識進度可從左側選單「辨識進度」中查看。
由於平台資源有限,為了服務更多需要進行文字辨識的使用者,我們不得不限制會員的每日使用額度,避免平台資源被少數會員佔據。
進入到上傳錯誤的書本、或從左側選單「瀏覽書頁」中找到錯誤的書頁,選擇錯誤的書頁後,即可透過右上角的「刪除」按鈕進行刪除,詳細操作可參考【刪除書頁】。
刪除書頁時,平台會將所有此書頁的圖片、校正歷程等一併刪除,且刪除後沒有辦法以任何方式回復,請會員們刪除前務必再次確認,若不小心刪錯書頁,只能將書頁重新上傳進行辨識。
找到有問題的書頁,點擊書頁名稱旁邊的鉛筆圖示即可進行檔名的修改,詳細操作可參考【修改書頁名稱】。
書頁剛上傳時,平台對於書頁進行文字辨識,所有書頁的校對版本皆標示為「最初版」,校正人標示為「ocr」,意即「最初上傳給 OCR 平台進行文字校正的版本」。往後該書頁有任何校正變動,皆可從「校對版本」及「校對人」一目了然。
三、校正功能
OCR 文字辨識的高正確率,雖可減輕不少校對負擔,但仍有些部份需要處理,其中包含
- 文字是否正確被框選出來
- 辨識出來的文字是否正確
- 去除錯誤或非必要輸出的區域
- 加入註解 … 等
因此我們同時也提供了校正功能,讓書本持有者及其他會員可一同協作校正。
我們將校正分為兩大類型校正及三種編輯模式:
- 區域校正:用來處理「框選文字」相關操作,其中又包含「文字」「行」及「區塊」的框選
- 文字校正:主要修改文字正確性
校正期間可即時預覽校正結果,若發現錯字、排版問題或輸出結果不正確,隨時皆能在各類型及模式中切換,詳細操作可參考【校正流程及介面】。
每個校正工作皆對應不同滑鼠右鍵選單,若您的瀏覽器有安裝滑鼠右鍵解除工具,例如:Allow Right Click。將會影響校正平台的滑鼠右鍵選單功能,可於使用本平台時暫時關閉相關擴充功能,或使用無痕模式進行校正。
當您對某書頁進行校正時,該書頁狀態會調整成「鎖定」,鎖定狀態的書頁在 2 個小時內只對您開放,其他會員(包含書本持有者)皆無法對該書頁進行操作,此鎖定機制可有效避免重工及心血被蓋掉的狀況,校正完成後請務必點擊左上方「校正完成」按鈕,以解除該書頁之鎖定狀態,詳細說明可參考【校正注意事項】。
超過 2 小時未完成校正,平台自動解除該書頁鎖定狀態,並將未完成的校正結果暫存於瀏覽器內,下次開啟此頁時若書頁版本並未變更(期間無其他使用者進行校正),平台將自動載入前次校正進度,詳細說明可參考【校正注意事項】。
平台預設儲存每一次的校對版本,遇此狀況,書本持有者可將書頁版本設定回正確的校對版本;若您的校正工作設定成「公開」,所有會員皆可進行校正,此時可將校正工作設定成「限制」,僅允許信任的會員進行校正,或關閉校正工作,取消其他會員協作的權限,詳細操作可參考【新增校正工作】。
若一本書內有許多相同的字或詞辨識錯誤,除了使用者手動修正外,平台另外提供:
- 批量文字取代(手動):於校正頁面右上角「進階」->「批量文字取代」,即可將辨識錯誤的詞,批量修正,詳細操作可參考【批量文字取代】。
- 自動文字修正(自動):平台利用使用者已校正完成的書頁結果,對未完成校正的書頁進行自動修正。
平台開放所有註冊會員皆可下載純文字及 PDF 檔,針對合作機構之進階會員另提供 HOCR 或特定客製化格式下載。