theory


        廣論論文內文擷取自福智官方所提供的PDF檔案,此檔案並無流通,但內文已完全擷取並整理完成,擷取流程分為五個步驟,不同階段有不同的內容增刪,故末學將此五個流程所整理的檔案予以保存以利開發者根據所需的原始內容進行編輯,每一個階段皆有些許錯誤如段落位置不對或行首縮排缺空格等諸小問題,若需要從這些階段的檔案開始處理,亦必須處理這些問題。

        最終完成的檔案中不包含側標文字與側標數字,在廣論App的原文中已刪除側標文字與側標數字的內容,若您的應用需要還原側標文字與側標數字,請由階段2開始整理。除此之外,亦不支援句號,句號以逗點取代。

擷取流程描述如下:
  1. 由程式讀取PDF內容並將文字訊息輸出成自定格式,在此階段的論文內容最為完整,但同時非論文的部份如標題、頁數、章節描述等資訊也包含在其中。
  2. 刪除非論文部分、刪除重複頁面內容、整理換行位置、加入行首縮排與內文描述。內文描述的部分以<TAG>...</TAG>的方式描述,共三種描述如下:
    • <s>...</s>: 小字型,用於論文的標題部分。
    • <b>...</b>: 粗體字,用於論文的標題部分。
    • <n>...</n>: 數字,用以區隔標題與列舉數字。
  3. 刪除側標、難字處理,此階段處理大部分的難字問題,除此階段外,最後的完成版本階段亦有處理缺失的難字。
  4. 物件化,此階段將內文整理成陣列物件,以Java語言格式封裝。






Comments