1. 요약
문서에서 특정 주제와 관련된 중요한 정보는 종종 표 형식으로 구성되어 있어 독자들이 정보를 검색하고 비교하는 데 도움을 준다. 그러나 이러한 표 형식의 데이터는 자연어로 표현하기 어렵고, PDF나 이미지와 같은 비정형 디지털 문서에서는 구조나 스타일의 다양성으로 인해 머신이 읽을 수 있는 형태로 변환하기 어렵다.
이러한 이미지 기반 테이블 인식을 딥러닝으로 해결하기 위해, 우리는 PubTabNet이라는 568,000개의 테이블 이미지와 이에 상응하는 구조화된 HTML 표현을 포함한 공개 데이터셋을 개발 및 공개하였다. PubTabNet은 PubMed Central™ Open Access Subset(PMCOA)에 포함된 과학 논문의 XML 및 PDF 표현을 매칭하여 자동으로 생성되었다.
또한 우리는 이미지를 HTML 코드로 변환하는 새로운 attention 기반 인코더-듀얼 디코더(EDD) 구조를 제안하였다. 이 모델은 표 구조를 복원하는 구조 디코더와, 셀 내용을 인식하는 셀 디코더를 포함한다. 더불어, 기존 평가 지표보다 멀티셀 오정렬 및 OCR 오류를 더 잘 반영하는 새로운 평가 지표인 Tree-Edit-Distance-based Similarity (TEDS)도 함께 제안한다.
실험 결과, 제안된 EDD 모델은 이미지 표현만으로도 복잡한 표를 정확하게 인식할 수 있었으며, 기존 기술보다 TEDS 기준 9.7% 높은 성능을 기록하였다.
2. 서론
문서에 존재하는 정보는 다양한 형식으로 존재하지만, 표 형식은 가장 흔하게 사용되는 형태 중 하나입니다. 자연어와 비교했을 때, 표는 많은 양의 데이터를 보다 간결하고 구조화된 방식으로 요약할 수 있으며, 독자들이 정보를 빠르게 찾고 비교할 수 있도록 돕습니다. 예를 들어, 생물의학 분야에서 표 형태의 데이터는 유전자 데이터베이스 큐레이션 등에 필수적이며, 실제로 논문에서 핵심 정보의 2~8%만이 본문 내에 존재하고, 대부분은 표나 별도 탭 형식의 파일로 제공됩니다.
하지만 이러한 표는 사람이 이해하기 쉽게 디자인되어 있으며, 사람은 일반적으로 표의 구조를 파악하고, 헤더와 셀 간의 관계를 잘 이해할 수 있습니다. 반면에 머신은 PDF나 이미지와 같은 비정형 문서에서 이러한 구조를 해석하기가 어렵습니다. 그 이유는 표마다 레이아웃이나 스타일의 다양성이 크기 때문입니다.
표를 이해하기 위한 핵심 단계는, 비정형 형태의 표를 머신이 읽을 수 있는 형식으로 변환하는 것입니다. 즉, 표의 구조(행과 열 배치)와 셀 내의 콘텐츠를 사전에 정의된 표준 형식으로 표현하는 과정이 필요하며, 이 과정을 "테이블 인식(table recognition)"이라고 부릅니다.
이 논문에서는 이미지 기반 테이블 인식 문제를 다음 세 가지 측면에서 해결합니다:
- 데이터 (Data):
우리는 PubTabNet이라는 대규모 데이터셋을 제공합니다. 이 데이터셋은 PMCOA(PubMed Central Open Access Subset)의 과학 논문에서 추출된 568,000개 이상의 다양한 형태의 테이블 이미지로 구성되어 있습니다. XML 구조와 PDF 형식을 매칭하여, 각 테이블 이미지에 대해 구조와 셀 내용을 HTML로 자동 주석 처리하였습니다. - 모델 (Model):
우리는 새로운 attention 기반 인코더-듀얼 디코더(EDD) 아키텍처를 개발하였습니다. 이 모델은 인코더, 구조 디코더, 셀 디코더로 구성되어 있으며, 테이블 이미지를 HTML로 변환합니다. 구조 디코더는 테이블의 구조를 복원하고, 셀 디코더가 셀 내용을 인식하도록 돕습니다. PubTabNet을 학습시킨 결과, 기존 방법보다 우수한 성능을 보여주었고, 오류 분석을 통해 추가 개선 가능성도 확인했습니다. - 평가 (Evaluation):
기존 평가 지표는 셀 간 인접 관계만을 기준으로 평가하여 한계가 있었습니다. 이를 보완하기 위해 우리는 TEDS(Tree-Edit-Distance-based Similarity)라는 새로운 평가 지표를 제안합니다. 이 지표는 복잡한 셀 위치 오차와 OCR 인식 오류까지 포괄적으로 평가할 수 있습니다.
3. 관련 연구
2.1 데이터 (Data)
비정형 문서에서의 표 데이터를 분석하는 작업은 주로 다음 세 가지 문제에 초점을 맞추고 있습니다:
- 테이블 탐지 (Table Detection):
문서 내에서 테이블이 있는 영역(바운딩 박스)을 식별하는 작업입니다. - 테이블 구조 인식 (Table Structure Recognition):
테이블의 구조적 정보만을 파악하는 작업으로, 행(row)과 열(column)의 배치를 분석합니다. - 테이블 인식 (Table Recognition):
테이블의 구조와 함께 셀(cell) 내의 내용을 추출하는 작업입니다.
표 1은 위의 세 가지 작업 중 하나 이상을 다루는 기존 데이터셋들을 비교한 것입니다. 이 논문에서 제안한 PubTabNet 데이터셋과 EDD 모델은 세 번째 문제, 즉 이미지 기반 테이블 인식 문제를 목표로 하고 있습니다.
다른 테이블 인식용 데이터셋들과 비교했을 때 PubTabNet은 다음과 같은 세 가지 주요 장점을 가집니다:
- 다양한 테이블 스타일:
PubTabNet은 6,000개 이상의 저널에서 출판된 논문의 테이블을 포함하고 있어, 다른 데이터셋보다 훨씬 더 다양한 스타일의 테이블을 포함합니다. - 셀 분류 정보 제공:
각 셀은 헤더 셀과 본문 셀로 구분되어 있어, 정보를 추출하거나 검색할 때 매우 유용합니다. - HTML 기반 출력 형식:
PubTabNet은 출력 포맷을 HTML로 제공하여 웹 애플리케이션에 직접 연동이 가능하고, HTML의 트리 구조를 활용해 보다 정확한 평가 지표 설계(TEDS)도 가능하게 만듭니다.
2.2 모델 (Model)
기존의 테이블 탐지 및 인식 방법들은 다음과 같은 방식들을 사용해 왔습니다:
- 규칙 기반 접근법 (rule-based):
미리 정의된 규칙을 사용하여 테이블 영역이나 구조를 추출합니다. - 통계적 기계 학습 (statistical ML):
통계 기반 알고리즘을 통해 구조를 분류하거나 분할합니다.
최근에는 딥러닝(deep learning) 기반 접근법들이 테이블 탐지와 구조 인식에서 매우 좋은 성능을 보여주고 있습니다. 예를 들어:
- CNN(합성곱 신경망) 기반 모델들이 테이블이 존재할 가능성이 있는 영역을 식별하는 데 사용되었습니다.
- Faster-RCNN, Mask-RCNN, YOLO 등 객체 탐지 모델들을 활용하여 테이블의 행과 열을 감지합니다.
- 그래프 신경망(Graph Neural Networks)을 사용해 문서 전체를 그래프로 모델링하여 테이블을 감지하고 구조를 복원하는 방법도 제안되었습니다.
이미지 기반 테이블 인식에서는 상대적으로 연구가 적었는데, 이 논문은 그중에서도 attention 기반 인코더-디코더 모델을 발전시킨 점에서 차별화됩니다.
기존 연구 중 하나인 Table2LaTeX에서는 LaTeX 코드로 변환하기 위해 이미지 기반 attention 모델을 사용했으나, 이 논문에서 제안된 EDD는 다음의 차별점을 가집니다:
- 이중 디코더 구조(dual decoder):
구조 디코더와 셀 디코더가 독립적이지 않고, 구조 디코더의 출력을 셀 디코더가 활용함으로써 성능 향상을 도모합니다. - 디코더 트리거(trigger) 방식:
셀 디코더는 구조 디코더가 새로운 셀을 생성할 때만 작동하며, 이때 구조 디코더의 은닉 상태(hidden state)를 이용해 셀의 위치를 인식합니다.
2.3 평가 (Evaluation)
테이블 인식 성능을 평가하는 데 흔히 사용되는 기존 지표는 인접 관계 기반 F1-score입니다. 이 방식은 다음과 같은 문제점이 있습니다:
- 즉시 인접 관계만 평가:
비어 있는 셀이나 멀리 떨어진 셀 간의 정렬 오류를 탐지하지 못합니다. - 정확한 일치만 인정:
셀 내용이 조금이라도 다르면 일치하지 않는 것으로 간주하여, OCR 오류 등 미세한 차이를 반영하지 못합니다.
이러한 한계를 극복하기 위해 이 논문은 TEDS(Tree-Edit-Distance-based Similarity)라는 새로운 평가 지표를 제안합니다.
TEDS는 다음과 같은 특징을 가집니다:
- 트리 전체 구조 수준에서 평가:
테이블을 트리로 표현하여 전반적인 구조 오류(멀티셀, 병합 등)를 감지할 수 있습니다. - 셀 콘텐츠 유사도 평가:
셀 내용에 대해서는 Levenshtein 거리(문자 편집 거리)를 사용하여 미세한 내용 차이까지 평가할 수 있습니다.
4. PubTabNet의 자동 생성
PMCOA(PubMed Central Open Access)는 PDF 형식의 비정형 문서와 XML 형식의 구조화된 문서를 모두 제공하는 100만 개 이상의 과학 논문을 포함하고 있습니다. 만약 XML의 테이블 노드 위치를 PDF 내에서 정확히 찾아낼 수 있다면, 대규모의 테이블 인식 데이터셋을 자동으로 생성할 수 있습니다.
이전 연구(Zhong et al.)에서는 PMCOA의 XML과 PDF 표현을 자동으로 매칭하는 알고리즘을 제안해 문서 레이아웃 분석용 데이터셋인 PubLayNet을 구축한 바 있습니다. 본 논문에서는 이 알고리즘을 활용해 XML의 테이블 노드를 PDF 내의 대응 영역과 연결합니다. 이후 해당 영역을 72 PPI 해상도의 이미지로 변환하여 테이블 이미지를 생성합니다.
💡 참고: 낮은 해상도(72 PPI)는 모델이 고해상도에 의존하지 않도록 유도하기 위해 선택되었습니다.
4.1. 바운딩 박스 검증
자동화된 매칭 알고리즘은 일부 테이블에 대해 잘못된 바운딩 박스를 생성하는 경우가 있었기 때문에, 이를 검증하기 위한 휴리스틱 규칙을 도입하였습니다.
- PDF에서 추출한 바운딩 박스 내 텍스트와,
- XML에서 제공하는 셀 내용 텍스트를 비교하여,
다음 조건을 만족하는 경우에만 바운딩 박스를 정상으로 간주합니다:
- TF-IDF 벡터의 코사인 유사도가 90% 이상
- 두 텍스트 길이 차이가 10% 이하
4.2. 학습 데이터 품질 향상 (필터링 & 정제)
모델 학습을 원활하게 하기 위해 다음과 같은 기준으로 특이 사례를 제거하였습니다:
- 10개 이상의 행 또는 열을 차지하는 스팬 셀 포함된 테이블
- 전체 데이터셋에서 50번 미만으로 등장하는 희귀 문자 포함
- 수식(formula) 또는 인라인 수식 노드를 포함하는 테이블
또한 HTML 코드도 일관성 있게 정제하였습니다:
- 이미지에서 재구성할 수 없는 노드나 속성 제거 (예: 하이퍼링크, 약어 정의 등)
- th와 td의 혼용 문제 해결: 모든 헤더 셀을 td로 통일하되, thead 내부에 있어 헤더임을 식별 가능
- 시각적 속성(style, class 등) 제거. rowspan과 colspan만 유지
✅ 결과적으로 모델 학습에 적합한 간결하고 일관된 HTML 구조로 데이터를 정제함.
4.3. 데이터셋 분할
최종적으로 PubTabNet은 다음과 같이 분할되었습니다:
- 훈련 세트 (Train): 전체의 60% → 548,592개 샘플
- 검증 세트 (Dev): 20%
- 테스트 세트 (Test): 20%
하지만 대부분의 테이블은 셀 병합(스팬 셀)이 없는 단순 구조이기 때문에, 테스트와 검증 성능이 왜곡될 수 있습니다.
이를 보완하기 위해, 다음과 같이 균형잡힌 평가용 서브셋을 별도로 구성했습니다:
- 스팬 셀이 있는 테이블 5,000개
- 스팬 셀이 없는 테이블 5,000개
⚖️ 이로 인해 복잡한 테이블 구조에 대한 모델의 일반화 능력을 더욱 정확히 평가할 수 있게 되었습니다.
5. 인코더-듀얼 디코더(EDD) 모델
그림 1은 본 논문에서 제안하는 EDD(Encoder-Dual-Decoder) 모델의 아키텍처를 보여줍니다. 이 모델은 크게 다음 세 가지 컴포넌트로 구성됩니다:
- 인코더 (Encoder)
- 구조 디코더 (Structure Decoder)
- 셀 디코더 (Cell Decoder)
이중 디코더를 사용하는 것은 다음 두 가지 직관적인 이유에서 출발합니다:
- (i) 테이블 구조 인식과 셀 내용 인식은 본질적으로 다른 작업이므로, 이를 하나의 디코더에서 동시에 처리하면 비효율적이다.
- (ii) 구조 인식에서 얻은 정보는 셀 위치 추정에 도움이 되므로, 이를 활용하는 구조가 바람직하다.
5.1. 구성 요소 설명
5.1.1. 인코더 (Encoder)
- 인코더는 CNN(합성곱 신경망)으로 구현되며, 입력된 테이블 이미지에서 시각적 특징을 추출합니다.
5.1.2. 구조 디코더 (Structure Decoder)
- 구조 디코더는 RNN 기반의 디코더이며, 테이블의 구조를 정의하는 HTML 태그들만 생성합니다.
- 예를 들어, <thead>, <tr>, <td rowspan="2" colspan="3"> 같은 태그들을 출력합니다.
5.1.3. 셀 디코더 (Cell Decoder)
- 구조 디코더가 새로운 셀(<td>)을 생성할 때마다, 셀 디코더가 트리거되어 해당 셀의 콘텐츠를 예측합니다.
- 이때 구조 디코더의 은닉 상태(hidden state)를 셀 디코더가 받아, 해당 셀 위치에 대한 주의를 집중(attention)할 수 있습니다.
📌 이 구조는 구조와 내용을 하나의 모델에서 동시에 처리하되, 역할 분담을 명확히 나누어 학습 효율을 극대화합니다.
5.2. 출력 통합
- 구조 디코더와 셀 디코더의 출력은 결합되어 최종적인 HTML 테이블 코드로 생성됩니다.
- 이 HTML 코드는 구조와 셀 내용을 모두 포함하므로, 웹 상에서 바로 사용 가능하고 평가에도 활용됩니다.
5.3. 학습을 위한 토크나이징
훈련 시에는 테이블의 HTML 표현을 다음과 같이 두 종류의 토큰 시퀀스로 분리합니다:
- 구조 토큰 (Structural Tokens)
- HTML의 구조만을 표현하는 태그들 (<tr>, <td>, </tr> 등)
- 셀 스팬 정보도 포함: 예를 들어 <td colspan="2">는 <td>, colspan, 2, >로 분리됨
- 셀 토큰 (Cell Tokens)
- 각 셀의 콘텐츠를 문자 단위로 분리
- 단, <sup>, </sup> 같은 HTML 태그는 단일 토큰으로 처리
예시: "Dog<sup>a</sup>" → ["D", "o", "g", "<sup>", "a", "</sup>"]
5.4. 손실 함수 (Loss Function)
모델은 두 가지 손실 값을 각각 계산하고, 이를 가중 평균하여 전체 손실을 구성합니다:
- 구조 손실: 구조 토큰을 예측한 결과의 크로스 엔트로피 손실 → lsl_s
- 셀 손실: 셀 토큰을 예측한 결과의 크로스 엔트로피 손실 → lcl_c
전체 손실 함수는 다음과 같습니다:
l=λ⋅ls+(1−λ)⋅lcl = \lambda \cdot l_s + (1 - \lambda) \cdot l_c
- 여기서 λ∈[0,1]\lambda \in [0,1]은 하이퍼파라미터로, 구조와 셀 인식의 중요도를 조절합니다.
6. 트리 편집 거리 기반 유사도 (TEDS)
HTML 형식에서 테이블은 본질적으로 트리 구조로 표현됩니다. 구체적으로 설명하자면:
- 루트 노드는 <table>이며, 그 자식 노드로는 <thead>(헤더 영역)와 <tbody>(본문 영역)가 존재합니다.
- <thead>와 <tbody>의 자식은 각각 테이블의 행인 <tr> 노드입니다.
- <tr>의 자식 노드는 셀을 나타내는 <td> 노드입니다.
- 각 셀 노드(<td>)는 다음 세 가지 속성을 갖습니다:
- colspan: 가로 병합된 셀 수
- rowspan: 세로 병합된 셀 수
- content: 셀의 내용
6.1. 트리 편집 거리 계산 (Edit Distance for Trees)
TEDS는 Pawlik and Augsten이 제안한 트리 편집 거리(tree-edit distance) 알고리즘을 기반으로 유사도를 계산합니다.
6.1.2. 편집 연산 비용 설정
- 삽입/삭제 연산: 비용 1
- 치환(substitution) 연산:
- no와 ns 노드 중 어느 하나라도 <td>가 아니면 비용 1
- 두 노드 모두 <td>인 경우:
- rowspan 또는 colspan 값이 다르면 → 비용 1
- 셀 내용이 다를 경우 → Levenshtein 거리 기반의 유사도 적용
📎 Levenshtein 거리란?
문자열 간 삽입, 삭제, 치환을 통해 얼마나 유사한지를 계산하는 편집 거리입니다.
6.2. TEDS 공식
두 트리 TaT_a와 TbT_b 사이의 TEDS는 다음과 같이 계산됩니다:
TEDS(Ta,Tb)=1−EditDist(Ta,Tb)max(∣Ta∣,∣Tb∣)TEDS(T_a, T_b) = 1 - \frac{EditDist(T_a, T_b)}{\max(|T_a|, |T_b|)}
- 여기서:
- EditDist(Ta,Tb)EditDist(T_a, T_b): 두 트리 간의 편집 거리
- ∣T∣|T|: 트리의 노드 수
결과적으로 TEDS 점수는 0~1 범위의 유사도를 나타내며, 클수록 더 유사합니다.
6.3. 기존 평가 지표와의 비교
TEDS는 기존의 인접 셀 기반 지표(Adjacency F1)보다 훨씬 정밀하게 오류를 반영합니다. 이를 증명하기 위해 두 가지 실험을 수행했습니다:
6.3.1. 셀 위치 왜곡 (Cell Shift Perturbation)
- 첫 번째 행의 셀들을 아래로 임의로 이동시키고, 빈 셀로 공간을 채움
- 이동 비율: 10%, 30%, 50%, 70%, 90%
예시:
- 90% 이동 → TEDS = 34.9%, 기존 F1 점수 = 80.3%
→ TEDS는 심각한 구조 왜곡을 잘 감지하지만, 기존 지표는 과대평가함
6.3.2. 셀 내용 왜곡 (Cell Content Perturbation)
- 셀 내 문자 중 일부를 임의로 수정
- 수정 비율: 10%, 30%, 50%, 70%, 90%
예시:
- 10% 수정 → TEDS = 93.2%, 기존 F1 점수 = 19.1%
→ TEDS는 성능 저하를 점진적으로 반영하지만, 기존 지표는 작은 오류에도 과도하게 반응
6.4. 시각화 요약
그림 5에서 다음을 확인할 수 있습니다:
- 셀 이동이 많을수록 TEDS는 점점 감소하지만, 기존 F1은 거의 변하지 않음 → 구조 오류 감지 능력 부족
- 셀 내용 변경이 적을 때 F1은 급격히 감소하지만, TEDS는 점진적으로 반응 → OCR 오류에 더 합리적
결론적으로, TEDS는 테이블 구조 및 셀 내용 모두를 균형 있게 평가할 수 있는 더 정교한 지표입니다.
7. 실험 (Experiments)
7.1 구현 세부사항 (Implementation Details)
EDD 모델은 GPU 메모리 한계를 피하기 위해 **PubTabNet 훈련 데이터의 하위 집합 (399,000개 샘플)**을 사용해 학습하였습니다. 선택 기준은 다음과 같습니다:
- 이미지 폭/높이 ≤ 512 픽셀
- 구조 토큰 수 ≤ 300
- 가장 긴 셀의 토큰 수 ≤ 100
⚠️ 참고: 검증 및 테스트 세트는 이 조건에 제한을 두지 않고 사용되었습니다.
7.1.1. 전처리 및 설정
- 이미지는 모두 448×448 픽셀로 리사이즈
- 각 채널은 z-score 정규화
- 구조 토큰 vocabulary 크기: 32
- 셀 토큰 vocabulary 크기: 281
7.1.2. 모델 구조
- 인코더: ResNet-18 사용 (이미지 특징 추출)
- 다양한 설정 실험:
- EDD-S2: 기본 ResNet-18 (stride = 2)
- EDD-S1: 마지막 CNN stride를 1로 설정
- EDD-S2S1, S1S1 등: 구조 디코더와 셀 디코더를 위한 독립적인 CNN 경로를 구성
💡 실험 결과, 고해상도 피처맵과 독립된 CNN 경로를 가진 EDD-S1S1이 가장 좋은 성능을 보여 최종 모델로 채택됨
7.2.3. 디코더 구조
- 구조 디코더: 1-layer LSTM (hidden size = 256)
- 셀 디코더: 1-layer LSTM (hidden size = 512)
- soft attention 사용 (hidden size = 256)
- 임베딩 차원: 구조 토큰 16, 셀 토큰 80
- 추론 시 beam search 사용 (beam = 3)
7.2.4. 학습 전략
1단계: 구조 토큰만 예측 (λ=1), batch size=10, lr=0.001 (10 epoch), 이후 lr=0.0001 (3 epoch)
2단계: 구조 + 셀 토큰 예측 (λ=0.5), batch size=8, lr=0.001 (10 epoch) → 0.0001 (2 epoch)
- 전체 학습 시간: V100 GPU 2개로 약 16일
7.2 정량적 분석 (Quantitative Analysis)
7.2.1. 비교 대상
EDD 모델을 다음 7개 모델과 비교했습니다:
- PDF 기반 툴:
- Tabula
- Traprange
- Camelot
- PDFPlumber
- Adobe Acrobat Pro
- 이미지 기반:
- Adobe Acrobat Pro (이미지 입력)
- WYGIWYS (기존 이미지-HTML 모델)
- EDD (제안 모델)
7.2.2. 성능 비교 (TEDS 기준, %)
Tabula | 78.0 | 57.8 | 67.9 | |
Traprange | 60.8 | 49.9 | 55.4 | |
Camelot | 80.0 | 66.0 | 73.0 | |
PDFPlumber | 44.9 | 35.9 | 40.4 | |
Adobe Pro | 68.9 | 61.8 | 65.3 | |
이미지 | Adobe Pro | 53.8 | 53.5 | 53.7 |
WYGIWYS | 81.7 | 75.5 | 78.6 | |
EDD (제안) | 91.2 | 85.4 | 88.3 |
✅ EDD는 이미지만으로도 PDF 기반 모델보다 우수한 성능을 보이며, WYGIWYS보다 9.7% 더 높은 TEDS를 기록함
7.3 정성적 분석 (Qualitative Analysis)
- 복잡한 구조(멀티 행/열 병합) 테이블에 대해, EDD는 완벽에 가까운 HTML 재구성을 수행함
- WYGIWYS는 일부 헤더 누락 및 셀 인식 오류 존재
- 오프더셸프 도구들은 구조가 복잡해질수록 심각한 오류 발생
📌 예시 그림에서 EDD는 구조적 오류 없이 <td>와 병합 셀까지 정확히 복원하며, 단순 OCR 오탈자만 포함됨
7.4 오류 분석 (Error Analysis)
테스트 세트를 다음 기준으로 15개 구간으로 나누어 EDD와 WYGIWYS 성능 비교:
- 테이블 너비
- 테이블 높이
- 구조 토큰 수
- 가장 긴 셀의 토큰 수
7.4.1. 결과 요약
- 모든 구간에서 EDD가 WYGIWYS보다 우수
- 테이블이 커질수록 두 모델 모두 성능 감소 → 이미지 리사이징으로 인한 정보 손실이 원인
- 구조 토큰 수나 셀 길이 증가에 따라 성능 감소폭은 작음
7.5 일반화 (Generalization)
PubTabNet 외에 TIES 논문 [5]에서 제안한 synthetic 데이터셋에서도 성능 검증
실험 결과
TIES | – | 96.9 / 94.7 / 52.9 / 68.5 |
EDD | 99.8 / 99.8 / 99.8 / 99.7 | 99.7 / 99.9 / 97.2 / 98.0 |
🏆 EDD는 모든 테이블 카테고리에서 TIES보다 우수, 특히 **복잡한 구조(C3, C4)**에서 월등함
8. 결론 (Conclusion)
이 논문은 이미지 기반 테이블 인식(image-based table recognition) 문제에 대해 종합적인 연구를 수행하였습니다. 주요 기여는 다음과 같습니다:
- 대규모 테이블 데이터셋 PubTabNet 개발
- 비정형 이미지 형식의 테이블을 구조화된 HTML 형태로 주석 처리
- 딥러닝 모델 학습 및 평가를 위한 공개 데이터셋 제공
- EDD (Encoder-Dual-Decoder) 모델 제안
- 테이블 구조 인식과 셀 내용 인식을 분리하여 각각의 디코더로 처리
- 구조 디코더는 HTML 구조를 복원하고, 셀 디코더는 구조 정보를 기반으로 셀 내용을 정확히 추출함
- TEDS (Tree-Edit-Distance-based Similarity) 평가 지표 제안
- 테이블 구조와 셀 내용을 모두 평가할 수 있는 정밀한 유사도 지표
- 기존의 인접 셀 기반 지표가 놓치는 멀티셀 오정렬이나 OCR 오류 등을 더 적절히 반영함
EDD 모델은 PubTabNet에서 학습한 후, 복잡한 테이블 구조를 정확히 복원하고 셀 내용을 효과적으로 추출하는 데 뛰어난 성능을 보였습니다.
또한, PubTabNet은 향후 테이블 인식 기술의 발전을 가속화할 수 있으며, 테이블 인식 모델의 사전 학습(pre-training)에도 활용 가능할 것으로 기대됩니다.
8.1 향후 연구 방향
- 셀 좌표 정보 추가
- 현재 PubTabNet은 셀의 정확한 좌표 정보를 제공하지 않음
- 이를 보완하여 EDD 네트워크에 셀 위치 예측을 위한 서브 브랜치를 추가할 계획
- 텍스트 기반 PDF의 경우 OCR 없이 직접 텍스트를 추출할 수 있으므로 정확도 향상 기대
- 엔드투엔드 테이블 인식 시스템으로 확장
- 현재 모델은 테이블 이미지가 이미 잘라진 상태임을 전제로 작동
- 향후에는 테이블 탐지 모델과 결합하여 전체 문서에서 테이블을 탐지하고 인식하는 통합 시스템으로 발전시킬 예정
'논문 > 논문 리딩' 카테고리의 다른 글
[논문] ReviewChain : Smart contract based review system with multi-blockchain gateway / 리뷰체인 (0) | 2019.07.28 |
---|---|
[논문] The Data Civilizer system / 데이터 시빌라이저 (0) | 2019.06.17 |
댓글