왜 GLYPHOCR인가
라벨링·학습 vs 마킹
수천 장 라벨링·재학습 대신, 양식당 한 번의 마킹
다른 AI OCR은 양식마다 정답 데이터를 라벨링하고 모델을 다시 학습시킵니다. GLYPHOCR은 셀 유형을 한 번 지정하는 마킹으로 끝나, 새 양식을 추가해도 라벨링·재학습 사이클이 없습니다.
기존 AI OCR
라벨링 + 재학습 사이클
- 양식마다 정답을 일일이 라벨링 — 보통 수백~수천 장 어노테이션 수집
- 양식·서식이 바뀌면 모델 재학습(파인튜닝)·GPU 재가동을 반복
- 데이터가 쌓이기 전엔 정확도 미달 — 도입 초기 콜드스타트 비용
- 확률 추론이라 같은 문서도 결과가 달라질 수 있음
GLYPHOCR
양식당 1회 마킹
- 셀 유형(고정·인쇄추출·필기추출·제외)만 한 번 지정 = 마킹
- 컴퓨터비전이 격자를 결정적으로 복원 — 양식별 라벨링·재학습 0(코어)
- 같은 양식은 다음부터 자동, 같은 입력은 같은 출력
- 정답 수집 대기·재학습 사이클 없이 마킹 직후 바로 운영
※ 손글씨 백엔드는 파인튜닝에 의존합니다 — 제품 전체가 무학습은 아닙니다. 코어(구조 복원·정합)가 양식별 라벨링·재학습 없이 동작합니다.
확률적 단일 VLM과 다른 축 — 결정적·검증가능 구조 추출.
확률이 아닌 좌표 — 동일 입력 = 동일 출력
OCR·신경망에 구조를 맡기지 않고 컴퓨터비전 라인검출 → 격자 → 원본 1:1 HTML로 복원합니다. 감사·재현이 가능합니다.
구조 보존 파이프라인 — 특허출원, 출원 중
셀단위 인쇄/필기 라우팅 + 장애격리
인쇄=경량 OCR·필기=VLM을 셀 단위로 병렬 처리하고, 의심 패턴은 cascade로 보강합니다. 한 셀이 실패해도 격자 구조는 보존됩니다.
셀단위 병렬 OCR — 특허출원, 출원 중
스스로 검증하고 고치는 3자 정합
원본·오버레이·HTML 3자가 어긋나면 결정적 파라미터를 자동 조정해 재수행합니다. 검증 대상은 구조·레이아웃 정합으로, 텍스트 추출 전체를 보증하지는 않습니다.
3단계로 끝
원본 업로드 → 셀 마킹 → HTML 미리보기. 한 번 설정하면 같은 양식은 자동입니다.
원본 이미지
○○ 신청서
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
스캔본·전자문서를 그대로 업로드하면 컴퓨터비전이 격자(셀)를 결정적으로 검출합니다.
작업 화면 · 셀 마킹
셀 유형 지정
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
셀마다 유형(고정·인쇄·필기·제외)을 한 번만 지정하면, 같은 양식은 다음부터 자동 적용됩니다.
HTML 미리보기
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
원본·오버레이·HTML 3자 정합 통과
원본 1:1 구조의 HTML로 복원하고, 원본·오버레이·HTML 3자 정합으로 자기검증합니다.
※ 화면의 양식·값은 합성 데모 예시입니다(실제 개인정보 미사용).
Product Tour
한눈에 보는 GLYPHOCR
처리량·품질·셀 구성·라우팅·결과까지 — 대시보드 한 화면에.
월별 처리량(페이지, 천 단위)
셀 유형 분포
- 인쇄추출48%
- 필기추출27%
- 고정값18%
- 제외7%
인쇄 / 필기 라우팅
- 인쇄68%
- 필기32%
주간 처리 추이
처리 품질 지표(자체측정 · 추출 정확도 아님)
- 구조 재현 정합도99.6%
- 인쇄 문자유사도98.4%
- 필기 문자유사도71.0%
양식별 처리량(페이지)
- ○○ 신청서3,120
- △△ 청구서2,480
- □□ 명세서1,940
- ◇◇ 검수서1,610
최근 결과
- 완료○○ 신청서142 셀
- 완료△△ 청구서98 셀
- 검증 대기□□ 명세서76 셀
※ 화면의 수치·항목은 데모용 예시입니다.