引言:
資訊時代的高速發展導致資料的大量產生與頻繁傳輸,單單依靠人力很難處理這些資料。依託於人工智慧的興起與發展,資料的利用變得更加高效。表格作為資料的一種重要載體,是人們為了讓資料的組織形式更加標準和結構化而使用的一種資料型別。
資訊高度精煉集中,方便資訊的檢索和比較。表格被廣泛用於表示結構和功能資訊,它們出現在不同種類的文獻中,包括報紙、研究論文和科學檔案等。表格使讀者能夠快速地比較、分析和理解檔案中出現的事實。表格識別的目的是獲取影象中的表格並存取其資料,是檔案分析與識別領域的一個重要分支。
表格在生成或儲存過程中往往以圖片或 PDF(Portable Document Format)檔案的形式存在,會丟失易於計算機理解的原有結構資訊。若是採用人工手段對錶格進行重新處理錄入,會面臨效率低下、資料量大導致出錯等問題。因此,如何高效地從檔案或影象中找到表格區域,同時有效地提取表格中的結構資訊和資料內容,成為了一個亟待解決的問題。
早期對於表格的識別大多是針對比較簡單或者模板化的表格。從表格的佈局結構出發,抽取表格線條或抽取文字塊,然後使用規則方法進行分析,但這些方法往往泛化能力較差,且難以處理複雜表格。後來隨著深度學習的發展,無論是機器視覺方向還是自然語言處理方面都獲得了巨大的進展,各種表格識別的方案被提出,並有研究者開始嘗試對自然場景下的表格進行處理。
傳統的機器學習方法可以實現表格識別和檢測,但是它有一定的效能侷限,特別是在解決複雜的表格識別和檢測的技術要求上有一定的侷限性。深度學習技術已經成為計算機視覺、自然語言處理等領域具有極高表現能力的新型機器學習方法,近年來,基於深度學習的表格識別與檢測技術也受到了廣泛關注,它可以提供較高的準確率和完整性,起到較好的優化解決方案。
基於深度學習的表格檢測與識別,將多層神經網路應用到解決表格問題上,概括地說,
(1)深度學習具有高精度和強大的表示能力,能夠有效處理複雜的資料,如影象和自然語言。
(2)深度學習的特徵通常是自動學習的,不需要人工標註資訊,同時它能夠準確地從不同的資料中學習新特徵,能夠更好地處理一些模糊,複雜和非線性的資料
(3)深度學習能夠捕獲表格的複雜結構資訊,並能夠從影象獲得更多更有用的技術特徵。
(1)資料集種類
基於機器學習的檢測識別方法主要面向標註了表格位置的資料集,使用這類資料來訓練模型,從而可以獲得較高的檢測識別精度;而基於深度學習的檢測識別方法則面向標註了表格元素位置的資料集,這類資料可以更詳細地描述檔案中的表格,可以有效抵擋干擾。
(2)模型準確度
從模型準確度上來看,基於機器學習的表格檢測識別方法主要依賴於模型的改進,因而能夠在模型準確度上把控較高的水準,即使對於較小的資料集來說;而基於深度學習的表格檢測識別方法則更加取決於資料的種類基於更加詳細的資料描述,可以使模型的精度提升到更高的水準。
(3)資料探索
從資料探索的角度來看,基於機器學習的表格檢測識別方法主要針對已有資料對模型進行訓練,以提高檢測識別的效率;而基於深度學習的檢測識別方法則能夠在完整的文字中探索出詳細的表格資訊,從而獲取更多的有用技術特徵。
(4)時間開銷
從時間開銷上來看,基於機器學習的表格檢測識別方法常常比較容易受到訓練資料和模型規模等因素的影響,而基於深度學習的表格檢測識別方法則更加容易進行識別和檢測,所需時間大大縮短。
1 因其可以解決資料量小、模型效果不理想等問題,基於機器學習的方法依賴於模型的提高.
2 而基於深度學習的方法可以提供完整的特徵描述以及更強大的抗干擾能力,從而使檢測識別的效果大大提升。
目前,基於深度學習的表格識別與檢測技術已經在科研和實際應用方面取得了一定的成就,常見的表格檢測和識別技術常常與基於深度學習的其他技術結合起來,進行系統設計。根據瞭望智庫的資料,基於深度學習的表格檢測與識別技術的市場規模目前已經從 2016 年的 46600 萬美元增長到了 2018 年的 9800 萬美元,其中,自然語言處理(NLP)、計算機視覺(CV)和影象處理等技術將有望引領下一步的增長動力。
作者認為,現今基於深度學習的表格檢測與識別技術仍然處於有限,大齡化和繁雜之中。從技術質量角度講,早期研究大多數臨時性,難以涉及客觀分析。然而,在過去幾年中,隨著技術的不斷成熟,許多研究開發了和實現了各種深度學習模型,提高了表格檢測與識別技術的準確性和有效性。在普適表格識別和檢測中,深度學習演演算法是有利的,但它仍有挑戰需要解決。未來研究可能集中在強化表格檢測和深度學習的執行速度,應用表格檢測到現實世界的任務,靈活的處理新表格,更多地考慮端到端方法以及學習式表格識別。
Kong L J, Bao Y C, Wang Q W and Li H K. 2021. Summary of table detection and recognition algorithms based on deep learning. Computer & Network,47(02):65-73
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.