본문 바로가기
논문/논문 리딩

[논문] Image-based table recognition: data, model, and evaluation / 이미지 기반 테이블 인식

by 지니어스쭌 2025. 6. 27.
반응형

1. 요약

문서에서 특정 주제와 관련된 중요한 정보는 종종 표 형식으로 구성되어 있어 독자들이 정보를 검색하고 비교하는 데 도움을 준다. 그러나 이러한 표 형식의 데이터는 자연어로 표현하기 어렵고, PDF나 이미지와 같은 비정형 디지털 문서에서는 구조나 스타일의 다양성으로 인해 머신이 읽을 수 있는 형태로 변환하기 어렵다.

이러한 이미지 기반 테이블 인식을 딥러닝으로 해결하기 위해, 우리는 PubTabNet이라는 568,000개의 테이블 이미지와 이에 상응하는 구조화된 HTML 표현을 포함한 공개 데이터셋을 개발 및 공개하였다. PubTabNet은 PubMed Central™ Open Access Subset(PMCOA)에 포함된 과학 논문의 XML 및 PDF 표현을 매칭하여 자동으로 생성되었다.

또한 우리는 이미지를 HTML 코드로 변환하는 새로운 attention 기반 인코더-듀얼 디코더(EDD) 구조를 제안하였다. 이 모델은 표 구조를 복원하는 구조 디코더와, 셀 내용을 인식하는 셀 디코더를 포함한다. 더불어, 기존 평가 지표보다 멀티셀 오정렬 및 OCR 오류를 더 잘 반영하는 새로운 평가 지표인 Tree-Edit-Distance-based Similarity (TEDS)도 함께 제안한다.

실험 결과, 제안된 EDD 모델은 이미지 표현만으로도 복잡한 표를 정확하게 인식할 수 있었으며, 기존 기술보다 TEDS 기준 9.7% 높은 성능을 기록하였다.

 

2. 서론

문서에 존재하는 정보는 다양한 형식으로 존재하지만, 표 형식은 가장 흔하게 사용되는 형태 중 하나입니다. 자연어와 비교했을 때, 표는 많은 양의 데이터를 보다 간결하고 구조화된 방식으로 요약할 수 있으며, 독자들이 정보를 빠르게 찾고 비교할 수 있도록 돕습니다. 예를 들어, 생물의학 분야에서 표 형태의 데이터는 유전자 데이터베이스 큐레이션 등에 필수적이며, 실제로 논문에서 핵심 정보의 2~8%만이 본문 내에 존재하고, 대부분은 표나 별도 탭 형식의 파일로 제공됩니다.

하지만 이러한 표는 사람이 이해하기 쉽게 디자인되어 있으며, 사람은 일반적으로 표의 구조를 파악하고, 헤더와 셀 간의 관계를 잘 이해할 수 있습니다. 반면에 머신은 PDF나 이미지와 같은 비정형 문서에서 이러한 구조를 해석하기가 어렵습니다. 그 이유는 표마다 레이아웃이나 스타일의 다양성이 크기 때문입니다.

표를 이해하기 위한 핵심 단계는, 비정형 형태의 표를 머신이 읽을 수 있는 형식으로 변환하는 것입니다. 즉, 표의 구조(행과 열 배치)와 셀 내의 콘텐츠를 사전에 정의된 표준 형식으로 표현하는 과정이 필요하며, 이 과정을 "테이블 인식(table recognition)"이라고 부릅니다.

이 논문에서는 이미지 기반 테이블 인식 문제를 다음 세 가지 측면에서 해결합니다:

  • 데이터 (Data):
    우리는 PubTabNet이라는 대규모 데이터셋을 제공합니다. 이 데이터셋은 PMCOA(PubMed Central Open Access Subset)의 과학 논문에서 추출된 568,000개 이상의 다양한 형태의 테이블 이미지로 구성되어 있습니다. XML 구조와 PDF 형식을 매칭하여, 각 테이블 이미지에 대해 구조와 셀 내용을 HTML로 자동 주석 처리하였습니다.
  • 모델 (Model):
    우리는 새로운 attention 기반 인코더-듀얼 디코더(EDD) 아키텍처를 개발하였습니다. 이 모델은 인코더, 구조 디코더, 셀 디코더로 구성되어 있으며, 테이블 이미지를 HTML로 변환합니다. 구조 디코더는 테이블의 구조를 복원하고, 셀 디코더가 셀 내용을 인식하도록 돕습니다. PubTabNet을 학습시킨 결과, 기존 방법보다 우수한 성능을 보여주었고, 오류 분석을 통해 추가 개선 가능성도 확인했습니다.
  • 평가 (Evaluation):
    기존 평가 지표는 셀 간 인접 관계만을 기준으로 평가하여 한계가 있었습니다. 이를 보완하기 위해 우리는 TEDS(Tree-Edit-Distance-based Similarity)라는 새로운 평가 지표를 제안합니다. 이 지표는 복잡한 셀 위치 오차와 OCR 인식 오류까지 포괄적으로 평가할 수 있습니다.

 

3. 관련 연구

2.1 데이터 (Data)

비정형 문서에서의 표 데이터를 분석하는 작업은 주로 다음 세 가지 문제에 초점을 맞추고 있습니다:

  1. 테이블 탐지 (Table Detection):
    문서 내에서 테이블이 있는 영역(바운딩 박스)을 식별하는 작업입니다.
  2. 테이블 구조 인식 (Table Structure Recognition):
    테이블의 구조적 정보만을 파악하는 작업으로, 행(row)과 열(column)의 배치를 분석합니다.
  3. 테이블 인식 (Table Recognition):
    테이블의 구조와 함께 셀(cell) 내의 내용을 추출하는 작업입니다.

표 1은 위의 세 가지 작업 중 하나 이상을 다루는 기존 데이터셋들을 비교한 것입니다. 이 논문에서 제안한 PubTabNet 데이터셋과 EDD 모델은 세 번째 문제, 즉 이미지 기반 테이블 인식 문제를 목표로 하고 있습니다.

다른 테이블 인식용 데이터셋들과 비교했을 때 PubTabNet은 다음과 같은 세 가지 주요 장점을 가집니다:

  1. 다양한 테이블 스타일:
    PubTabNet은 6,000개 이상의 저널에서 출판된 논문의 테이블을 포함하고 있어, 다른 데이터셋보다 훨씬 더 다양한 스타일의 테이블을 포함합니다.
  2. 셀 분류 정보 제공:
    각 셀은 헤더 셀과 본문 셀로 구분되어 있어, 정보를 추출하거나 검색할 때 매우 유용합니다.
  3. HTML 기반 출력 형식:
    PubTabNet은 출력 포맷을 HTML로 제공하여 웹 애플리케이션에 직접 연동이 가능하고, HTML의 트리 구조를 활용해 보다 정확한 평가 지표 설계(TEDS)도 가능하게 만듭니다.

2.2 모델 (Model)

기존의 테이블 탐지 및 인식 방법들은 다음과 같은 방식들을 사용해 왔습니다:

  • 규칙 기반 접근법 (rule-based):
    미리 정의된 규칙을 사용하여 테이블 영역이나 구조를 추출합니다.
  • 통계적 기계 학습 (statistical ML):
    통계 기반 알고리즘을 통해 구조를 분류하거나 분할합니다.

최근에는 딥러닝(deep learning) 기반 접근법들이 테이블 탐지와 구조 인식에서 매우 좋은 성능을 보여주고 있습니다. 예를 들어:

  • CNN(합성곱 신경망) 기반 모델들이 테이블이 존재할 가능성이 있는 영역을 식별하는 데 사용되었습니다.
  • Faster-RCNN, Mask-RCNN, YOLO 등 객체 탐지 모델들을 활용하여 테이블의 행과 열을 감지합니다.
  • 그래프 신경망(Graph Neural Networks)을 사용해 문서 전체를 그래프로 모델링하여 테이블을 감지하고 구조를 복원하는 방법도 제안되었습니다.

이미지 기반 테이블 인식에서는 상대적으로 연구가 적었는데, 이 논문은 그중에서도 attention 기반 인코더-디코더 모델을 발전시킨 점에서 차별화됩니다.

기존 연구 중 하나인 Table2LaTeX에서는 LaTeX 코드로 변환하기 위해 이미지 기반 attention 모델을 사용했으나, 이 논문에서 제안된 EDD는 다음의 차별점을 가집니다:

  • 이중 디코더 구조(dual decoder):
    구조 디코더와 셀 디코더가 독립적이지 않고, 구조 디코더의 출력을 셀 디코더가 활용함으로써 성능 향상을 도모합니다.
  • 디코더 트리거(trigger) 방식:
    셀 디코더는 구조 디코더가 새로운 셀을 생성할 때만 작동하며, 이때 구조 디코더의 은닉 상태(hidden state)를 이용해 셀의 위치를 인식합니다.

2.3 평가 (Evaluation)

테이블 인식 성능을 평가하는 데 흔히 사용되는 기존 지표는 인접 관계 기반 F1-score입니다. 이 방식은 다음과 같은 문제점이 있습니다:

  1. 즉시 인접 관계만 평가:
    비어 있는 셀이나 멀리 떨어진 셀 간의 정렬 오류를 탐지하지 못합니다.
  2. 정확한 일치만 인정:
    셀 내용이 조금이라도 다르면 일치하지 않는 것으로 간주하여, OCR 오류 등 미세한 차이를 반영하지 못합니다.

이러한 한계를 극복하기 위해 이 논문은 TEDS(Tree-Edit-Distance-based Similarity)라는 새로운 평가 지표를 제안합니다.

TEDS는 다음과 같은 특징을 가집니다:

  • 트리 전체 구조 수준에서 평가:
    테이블을 트리로 표현하여 전반적인 구조 오류(멀티셀, 병합 등)를 감지할 수 있습니다.
  • 셀 콘텐츠 유사도 평가:
    셀 내용에 대해서는 Levenshtein 거리(문자 편집 거리)를 사용하여 미세한 내용 차이까지 평가할 수 있습니다.

 

4. PubTabNet의 자동 생성

PMCOA(PubMed Central Open Access)는 PDF 형식의 비정형 문서와 XML 형식의 구조화된 문서를 모두 제공하는 100만 개 이상의 과학 논문을 포함하고 있습니다. 만약 XML의 테이블 노드 위치를 PDF 내에서 정확히 찾아낼 수 있다면, 대규모의 테이블 인식 데이터셋을 자동으로 생성할 수 있습니다.

이전 연구(Zhong et al.)에서는 PMCOA의 XML과 PDF 표현을 자동으로 매칭하는 알고리즘을 제안해 문서 레이아웃 분석용 데이터셋인 PubLayNet을 구축한 바 있습니다. 본 논문에서는 이 알고리즘을 활용해 XML의 테이블 노드를 PDF 내의 대응 영역과 연결합니다. 이후 해당 영역을 72 PPI 해상도의 이미지로 변환하여 테이블 이미지를 생성합니다.

💡 참고: 낮은 해상도(72 PPI)는 모델이 고해상도에 의존하지 않도록 유도하기 위해 선택되었습니다.

4.1. 바운딩 박스 검증

자동화된 매칭 알고리즘은 일부 테이블에 대해 잘못된 바운딩 박스를 생성하는 경우가 있었기 때문에, 이를 검증하기 위한 휴리스틱 규칙을 도입하였습니다.

  • PDF에서 추출한 바운딩 박스 내 텍스트와,
  • XML에서 제공하는 셀 내용 텍스트를 비교하여,

다음 조건을 만족하는 경우에만 바운딩 박스를 정상으로 간주합니다:

  1. TF-IDF 벡터의 코사인 유사도가 90% 이상
  2. 두 텍스트 길이 차이가 10% 이하

4.2. 학습 데이터 품질 향상 (필터링 & 정제)

모델 학습을 원활하게 하기 위해 다음과 같은 기준으로 특이 사례를 제거하였습니다:

  • 10개 이상의 행 또는 열을 차지하는 스팬 셀 포함된 테이블
  • 전체 데이터셋에서 50번 미만으로 등장하는 희귀 문자 포함
  • 수식(formula) 또는 인라인 수식 노드를 포함하는 테이블

또한 HTML 코드도 일관성 있게 정제하였습니다:

  1. 이미지에서 재구성할 수 없는 노드나 속성 제거 (예: 하이퍼링크, 약어 정의 등)
  2. th와 td의 혼용 문제 해결: 모든 헤더 셀을 td로 통일하되, thead 내부에 있어 헤더임을 식별 가능
  3. 시각적 속성(style, class 등) 제거. rowspan과 colspan만 유지

✅ 결과적으로 모델 학습에 적합한 간결하고 일관된 HTML 구조로 데이터를 정제함.

4.3. 데이터셋 분할

최종적으로 PubTabNet은 다음과 같이 분할되었습니다:

  • 훈련 세트 (Train): 전체의 60% → 548,592개 샘플
  • 검증 세트 (Dev): 20%
  • 테스트 세트 (Test): 20%

하지만 대부분의 테이블은 셀 병합(스팬 셀)이 없는 단순 구조이기 때문에, 테스트와 검증 성능이 왜곡될 수 있습니다.

이를 보완하기 위해, 다음과 같이 균형잡힌 평가용 서브셋을 별도로 구성했습니다:

  • 스팬 셀이 있는 테이블 5,000개
  • 스팬 셀이 없는 테이블 5,000개

⚖️ 이로 인해 복잡한 테이블 구조에 대한 모델의 일반화 능력을 더욱 정확히 평가할 수 있게 되었습니다.

 

5. 인코더-듀얼 디코더(EDD) 모델

그림 1은 본 논문에서 제안하는 EDD(Encoder-Dual-Decoder) 모델의 아키텍처를 보여줍니다. 이 모델은 크게 다음 세 가지 컴포넌트로 구성됩니다:

  1. 인코더 (Encoder)
  2. 구조 디코더 (Structure Decoder)
  3. 셀 디코더 (Cell Decoder)

이중 디코더를 사용하는 것은 다음 두 가지 직관적인 이유에서 출발합니다:

  • (i) 테이블 구조 인식과 셀 내용 인식은 본질적으로 다른 작업이므로, 이를 하나의 디코더에서 동시에 처리하면 비효율적이다.
  • (ii) 구조 인식에서 얻은 정보는 셀 위치 추정에 도움이 되므로, 이를 활용하는 구조가 바람직하다.

5.1. 구성 요소 설명

5.1.1. 인코더 (Encoder)

  • 인코더는 CNN(합성곱 신경망)으로 구현되며, 입력된 테이블 이미지에서 시각적 특징을 추출합니다.

5.1.2. 구조 디코더 (Structure Decoder)

  • 구조 디코더는 RNN 기반의 디코더이며, 테이블의 구조를 정의하는 HTML 태그들만 생성합니다.
  • 예를 들어, <thead>, <tr>, <td rowspan="2" colspan="3"> 같은 태그들을 출력합니다.

5.1.3. 셀 디코더 (Cell Decoder)

  • 구조 디코더가 새로운 셀(<td>)을 생성할 때마다, 셀 디코더가 트리거되어 해당 셀의 콘텐츠를 예측합니다.
  • 이때 구조 디코더의 은닉 상태(hidden state)를 셀 디코더가 받아, 해당 셀 위치에 대한 주의를 집중(attention)할 수 있습니다.

📌 이 구조는 구조와 내용을 하나의 모델에서 동시에 처리하되, 역할 분담을 명확히 나누어 학습 효율을 극대화합니다.

5.2. 출력 통합

  • 구조 디코더와 셀 디코더의 출력은 결합되어 최종적인 HTML 테이블 코드로 생성됩니다.
  • 이 HTML 코드는 구조와 셀 내용을 모두 포함하므로, 웹 상에서 바로 사용 가능하고 평가에도 활용됩니다.

5.3. 학습을 위한 토크나이징

훈련 시에는 테이블의 HTML 표현을 다음과 같이 두 종류의 토큰 시퀀스로 분리합니다:

  1. 구조 토큰 (Structural Tokens)
    • HTML의 구조만을 표현하는 태그들 (<tr>, <td>, </tr> 등)
    • 셀 스팬 정보도 포함: 예를 들어 <td colspan="2">는 <td>, colspan, 2, >로 분리됨
  2. 셀 토큰 (Cell Tokens)
    • 각 셀의 콘텐츠를 문자 단위로 분리
    • 단, <sup>, </sup> 같은 HTML 태그는 단일 토큰으로 처리

예시: "Dog<sup>a</sup>" → ["D", "o", "g", "<sup>", "a", "</sup>"]

5.4. 손실 함수 (Loss Function)

모델은 두 가지 손실 값을 각각 계산하고, 이를 가중 평균하여 전체 손실을 구성합니다:

  • 구조 손실: 구조 토큰을 예측한 결과의 크로스 엔트로피 손실 → lsl_s
  • 셀 손실: 셀 토큰을 예측한 결과의 크로스 엔트로피 손실 → lcl_c

전체 손실 함수는 다음과 같습니다:

l=λ⋅ls+(1−λ)⋅lcl = \lambda \cdot l_s + (1 - \lambda) \cdot l_c

  • 여기서 λ∈[0,1]\lambda \in [0,1]은 하이퍼파라미터로, 구조와 셀 인식의 중요도를 조절합니다.

 

6. 트리 편집 거리 기반 유사도 (TEDS)

HTML 형식에서 테이블은 본질적으로 트리 구조로 표현됩니다. 구체적으로 설명하자면:

  • 루트 노드는 <table>이며, 그 자식 노드로는 <thead>(헤더 영역)와 <tbody>(본문 영역)가 존재합니다.
  • <thead>와 <tbody>의 자식은 각각 테이블의 행인 <tr> 노드입니다.
  • <tr>의 자식 노드는 셀을 나타내는 <td> 노드입니다.
  • 각 셀 노드(<td>)는 다음 세 가지 속성을 갖습니다:
    1. colspan: 가로 병합된 셀 수
    2. rowspan: 세로 병합된 셀 수
    3. content: 셀의 내용

6.1. 트리 편집 거리 계산 (Edit Distance for Trees)

TEDS는 Pawlik and Augsten이 제안한 트리 편집 거리(tree-edit distance) 알고리즘을 기반으로 유사도를 계산합니다.

6.1.2. 편집 연산 비용 설정

  • 삽입/삭제 연산: 비용 1
  • 치환(substitution) 연산:
    • no와 ns 노드 중 어느 하나라도 <td>가 아니면 비용 1
    • 두 노드 모두 <td>인 경우:
      • rowspan 또는 colspan 값이 다르면 → 비용 1
      • 셀 내용이 다를 경우 → Levenshtein 거리 기반의 유사도 적용

📎 Levenshtein 거리란?
문자열 간 삽입, 삭제, 치환을 통해 얼마나 유사한지를 계산하는 편집 거리입니다.

6.2. TEDS 공식

두 트리 TaT_aTbT_b 사이의 TEDS는 다음과 같이 계산됩니다:

TEDS(Ta,Tb)=1−EditDist(Ta,Tb)max⁡(∣Ta∣,∣Tb∣)TEDS(T_a, T_b) = 1 - \frac{EditDist(T_a, T_b)}{\max(|T_a|, |T_b|)}

  • 여기서:
    • EditDist(Ta,Tb)EditDist(T_a, T_b): 두 트리 간의 편집 거리
    • ∣T∣|T|: 트리의 노드 수

결과적으로 TEDS 점수는 0~1 범위의 유사도를 나타내며, 클수록 더 유사합니다.

6.3. 기존 평가 지표와의 비교

TEDS는 기존의 인접 셀 기반 지표(Adjacency F1)보다 훨씬 정밀하게 오류를 반영합니다. 이를 증명하기 위해 두 가지 실험을 수행했습니다:

6.3.1. 셀 위치 왜곡 (Cell Shift Perturbation)

  • 첫 번째 행의 셀들을 아래로 임의로 이동시키고, 빈 셀로 공간을 채움
  • 이동 비율: 10%, 30%, 50%, 70%, 90%

예시:

  • 90% 이동 → TEDS = 34.9%, 기존 F1 점수 = 80.3%

→ TEDS는 심각한 구조 왜곡을 잘 감지하지만, 기존 지표는 과대평가함

6.3.2. 셀 내용 왜곡 (Cell Content Perturbation)

  • 셀 내 문자 중 일부를 임의로 수정
  • 수정 비율: 10%, 30%, 50%, 70%, 90%

예시:

  • 10% 수정 → TEDS = 93.2%, 기존 F1 점수 = 19.1%

→ TEDS는 성능 저하를 점진적으로 반영하지만, 기존 지표는 작은 오류에도 과도하게 반응

6.4. 시각화 요약

그림 5에서 다음을 확인할 수 있습니다:

  • 셀 이동이 많을수록 TEDS는 점점 감소하지만, 기존 F1은 거의 변하지 않음 → 구조 오류 감지 능력 부족
  • 셀 내용 변경이 적을 때 F1은 급격히 감소하지만, TEDS는 점진적으로 반응 → OCR 오류에 더 합리적

결론적으로, TEDS는 테이블 구조 및 셀 내용 모두를 균형 있게 평가할 수 있는 더 정교한 지표입니다.

 

7. 실험 (Experiments)

7.1 구현 세부사항 (Implementation Details)

EDD 모델은 GPU 메모리 한계를 피하기 위해 **PubTabNet 훈련 데이터의 하위 집합 (399,000개 샘플)**을 사용해 학습하였습니다. 선택 기준은 다음과 같습니다:

  • 이미지 폭/높이 ≤ 512 픽셀
  • 구조 토큰 수 ≤ 300
  • 가장 긴 셀의 토큰 수 ≤ 100

⚠️ 참고: 검증 및 테스트 세트는 이 조건에 제한을 두지 않고 사용되었습니다.

7.1.1. 전처리 및 설정

  • 이미지는 모두 448×448 픽셀로 리사이즈
  • 각 채널은 z-score 정규화
  • 구조 토큰 vocabulary 크기: 32
  • 셀 토큰 vocabulary 크기: 281

7.1.2. 모델 구조

  • 인코더: ResNet-18 사용 (이미지 특징 추출)
  • 다양한 설정 실험:
    • EDD-S2: 기본 ResNet-18 (stride = 2)
    • EDD-S1: 마지막 CNN stride를 1로 설정
    • EDD-S2S1, S1S1 등: 구조 디코더와 셀 디코더를 위한 독립적인 CNN 경로를 구성

💡 실험 결과, 고해상도 피처맵과 독립된 CNN 경로를 가진 EDD-S1S1이 가장 좋은 성능을 보여 최종 모델로 채택됨

7.2.3. 디코더 구조

  • 구조 디코더: 1-layer LSTM (hidden size = 256)
  • 셀 디코더: 1-layer LSTM (hidden size = 512)
  • soft attention 사용 (hidden size = 256)
  • 임베딩 차원: 구조 토큰 16, 셀 토큰 80
  • 추론 시 beam search 사용 (beam = 3)

7.2.4. 학습 전략

1단계: 구조 토큰만 예측 (λ=1), batch size=10, lr=0.001 (10 epoch), 이후 lr=0.0001 (3 epoch)
2단계: 구조 + 셀 토큰 예측 (λ=0.5), batch size=8, lr=0.001 (10 epoch) → 0.0001 (2 epoch)

  • 전체 학습 시간: V100 GPU 2개로 약 16일

7.2 정량적 분석 (Quantitative Analysis)

7.2.1. 비교 대상

EDD 모델을 다음 7개 모델과 비교했습니다:

  • PDF 기반 툴:
    • Tabula
    • Traprange
    • Camelot
    • PDFPlumber
    • Adobe Acrobat Pro
  • 이미지 기반:
    • Adobe Acrobat Pro (이미지 입력)
    • WYGIWYS (기존 이미지-HTML 모델)
    • EDD (제안 모델)

7.2.2. 성능 비교 (TEDS 기준, %)

입력 방식방법단순 테이블복잡 테이블전체 평균
PDF Tabula 78.0 57.8 67.9
  Traprange 60.8 49.9 55.4
  Camelot 80.0 66.0 73.0
  PDFPlumber 44.9 35.9 40.4
  Adobe Pro 68.9 61.8 65.3
이미지 Adobe Pro 53.8 53.5 53.7
  WYGIWYS 81.7 75.5 78.6
  EDD (제안) 91.2 85.4 88.3
 

✅ EDD는 이미지만으로도 PDF 기반 모델보다 우수한 성능을 보이며, WYGIWYS보다 9.7% 더 높은 TEDS를 기록함

7.3 정성적 분석 (Qualitative Analysis)

  • 복잡한 구조(멀티 행/열 병합) 테이블에 대해, EDD는 완벽에 가까운 HTML 재구성을 수행함
  • WYGIWYS는 일부 헤더 누락 및 셀 인식 오류 존재
  • 오프더셸프 도구들은 구조가 복잡해질수록 심각한 오류 발생

📌 예시 그림에서 EDD는 구조적 오류 없이 <td>와 병합 셀까지 정확히 복원하며, 단순 OCR 오탈자만 포함됨

 

7.4 오류 분석 (Error Analysis)

테스트 세트를 다음 기준으로 15개 구간으로 나누어 EDD와 WYGIWYS 성능 비교:

  • 테이블 너비
  • 테이블 높이
  • 구조 토큰 수
  • 가장 긴 셀의 토큰 수

7.4.1. 결과 요약

  • 모든 구간에서 EDD가 WYGIWYS보다 우수
  • 테이블이 커질수록 두 모델 모두 성능 감소 → 이미지 리사이징으로 인한 정보 손실이 원인
  • 구조 토큰 수나 셀 길이 증가에 따라 성능 감소폭은 작음

7.5 일반화 (Generalization)

PubTabNet 외에 TIES 논문 [5]에서 제안한 synthetic 데이터셋에서도 성능 검증

실험 결과

모델TEDS (C1~C4)Exact Match (%) (C1~C4)
TIES 96.9 / 94.7 / 52.9 / 68.5
EDD 99.8 / 99.8 / 99.8 / 99.7 99.7 / 99.9 / 97.2 / 98.0
 

 

🏆 EDD는 모든 테이블 카테고리에서 TIES보다 우수, 특히 **복잡한 구조(C3, C4)**에서 월등함

 

8. 결론 (Conclusion)

이 논문은 이미지 기반 테이블 인식(image-based table recognition) 문제에 대해 종합적인 연구를 수행하였습니다. 주요 기여는 다음과 같습니다:

  1. 대규모 테이블 데이터셋 PubTabNet 개발
    • 비정형 이미지 형식의 테이블을 구조화된 HTML 형태로 주석 처리
    • 딥러닝 모델 학습 및 평가를 위한 공개 데이터셋 제공
  2. EDD (Encoder-Dual-Decoder) 모델 제안
    • 테이블 구조 인식과 셀 내용 인식을 분리하여 각각의 디코더로 처리
    • 구조 디코더는 HTML 구조를 복원하고, 셀 디코더는 구조 정보를 기반으로 셀 내용을 정확히 추출함
  3. TEDS (Tree-Edit-Distance-based Similarity) 평가 지표 제안
    • 테이블 구조와 셀 내용을 모두 평가할 수 있는 정밀한 유사도 지표
    • 기존의 인접 셀 기반 지표가 놓치는 멀티셀 오정렬이나 OCR 오류 등을 더 적절히 반영함

EDD 모델은 PubTabNet에서 학습한 후, 복잡한 테이블 구조를 정확히 복원하고 셀 내용을 효과적으로 추출하는 데 뛰어난 성능을 보였습니다.
또한, PubTabNet은 향후 테이블 인식 기술의 발전을 가속화할 수 있으며, 테이블 인식 모델의 사전 학습(pre-training)에도 활용 가능할 것으로 기대됩니다.

8.1 향후 연구 방향

  1. 셀 좌표 정보 추가
    • 현재 PubTabNet은 셀의 정확한 좌표 정보를 제공하지 않음
    • 이를 보완하여 EDD 네트워크에 셀 위치 예측을 위한 서브 브랜치를 추가할 계획
    • 텍스트 기반 PDF의 경우 OCR 없이 직접 텍스트를 추출할 수 있으므로 정확도 향상 기대
  2. 엔드투엔드 테이블 인식 시스템으로 확장
    • 현재 모델은 테이블 이미지가 이미 잘라진 상태임을 전제로 작동
    • 향후에는 테이블 탐지 모델과 결합하여 전체 문서에서 테이블을 탐지하고 인식하는 통합 시스템으로 발전시킬 예정
반응형

댓글