세 가지 약속
양식별 무재학습 · 양식당 1회 마킹 · 폐쇄망 완전 동작.
양식별 학습 없이
컴퓨터비전이 격자(셀)를 결정적으로 복원해 신규 양식을 즉시 처리합니다. 양식마다 정답을 라벨링하거나 모델을 다시 학습시키지 않습니다.
코어(구조 복원·정합) 기준 — 손글씨 백엔드는 별도 학습에 의존
양식당 1회 마킹
셀 4유형을 한 번만 마킹하면 양식 지문으로 자동 재사용됩니다. 같은 양식은 다음부터 추가 설정 0, 고정셀 OCR 호출까지 절감합니다.
폐쇄망 완전 동작
단일 번들로 air-gap 환경에 설치하고 외부 호출 0건으로 동작합니다. 데이터가 고객 환경 밖으로 나가지 않아 공공·금융·의료에 적합합니다.
왜 GLYPHOCR인가
라벨링·학습 vs 마킹
수천 장 라벨링·재학습 대신, 양식당 한 번의 마킹
다른 AI OCR은 양식마다 정답 데이터를 라벨링하고 모델을 다시 학습시킵니다. GLYPHOCR은 셀 유형을 한 번 지정하는 마킹으로 끝나, 새 양식을 추가해도 라벨링·재학습 사이클이 없습니다.
기존 AI OCR
라벨링 + 재학습 사이클
- 양식마다 정답을 일일이 라벨링 — 보통 수백~수천 장 어노테이션 수집
- 양식·서식이 바뀌면 모델 재학습(파인튜닝)·GPU 재가동을 반복
- 데이터가 쌓이기 전엔 정확도 미달 — 도입 초기 콜드스타트 비용
- 확률 추론이라 같은 문서도 결과가 달라질 수 있음
GLYPHOCR
양식당 1회 마킹
- 셀 유형(고정·인쇄추출·필기추출·제외)만 한 번 지정 = 마킹
- 컴퓨터비전이 격자를 결정적으로 복원 — 양식별 라벨링·재학습 0(코어)
- 같은 양식은 다음부터 자동, 같은 입력은 같은 출력
- 정답 수집 대기·재학습 사이클 없이 마킹 직후 바로 운영
※ 손글씨 백엔드는 파인튜닝에 의존합니다 — 제품 전체가 무학습은 아닙니다. 코어(구조 복원·정합)가 양식별 라벨링·재학습 없이 동작합니다.
확률적 단일 VLM·일반 클라우드 OCR과 다른 축 — 한국 양식에 특화된 결정적·검증가능 구조 추출.
확률이 아닌 좌표 — 동일 입력 = 동일 출력
OCR·신경망에 구조를 맡기지 않고 컴퓨터비전 라인검출 → 격자 → 원본 1:1 HTML로 복원합니다. 감사·재현이 가능합니다.
구조 보존 파이프라인 — 특허출원, 출원 중
셀단위 인쇄/필기 라우팅 + 장애격리
인쇄=경량 OCR·필기=VLM을 셀 단위로 병렬 처리하고, 의심 패턴은 cascade로 보강합니다. 한 셀이 실패해도 격자 구조는 보존됩니다.
셀단위 병렬 OCR — 특허출원, 출원 중
스스로 검증하고 고치는 3자 정합
원본·오버레이·HTML 3자가 어긋나면 결정적 파라미터를 자동 조정해 재수행합니다. 검증 대상은 구조·레이아웃 정합으로, 텍스트 추출 전체를 보증하지는 않습니다.
한국 양식·표 구조에 특화
컴퓨터비전 라인검출로 행정·금융 양식의 복잡한 표·병합셀을 격자로 그대로 복원합니다. 일반 문서 위주 OCR이 흔들리는 칸 경계에 강합니다.
데이터가 나가지 않는 폐쇄망 동작
단일 번들로 air-gap 환경에 설치해 외부 호출 0으로 동작합니다. 입력 문서가 고객 환경 밖으로 나가지 않아 공공·금융·의료에 적합합니다.
3단계로 끝
원본 업로드 → 셀 마킹 → HTML 미리보기. 한 번 설정하면 같은 양식은 자동입니다.
원본 이미지
○○ 신청서
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
스캔본·전자문서를 그대로 업로드하면 컴퓨터비전이 격자(셀)를 결정적으로 검출합니다.
작업 화면 · 셀 마킹
셀 유형 지정
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
셀마다 유형(고정·인쇄·필기·제외)을 한 번만 지정하면, 같은 양식은 다음부터 자동 적용됩니다.
HTML 미리보기
| 성명 | 홍길동 |
| 부서 | 품질관리팀 |
| 신청일 | 2026-06-03 |
| 수량 | 1,240 |
| 담당 서명 | (서명) |
원본·오버레이·HTML 3자 정합 통과
원본 1:1 구조의 HTML로 복원하고, 원본·오버레이·HTML 3자 정합으로 자기검증합니다.
※ 화면의 양식·값은 합성 데모 예시입니다(실제 개인정보 미사용).
양식 지문 재사용
한 번 마킹하면, 같은 양식은 자동
셀 4유형을 마킹하면 고정셀은 선(先) OCR로 캐싱하고, 가변값 셀만 유형별 최적 엔진으로 병렬 처리합니다.
고정셀 선(先) OCR 캐싱
양식의 고정 문구는 한 번만 읽어 캐싱합니다. 반복 처리되는 양식일수록 OCR 호출이 줄어듭니다.
유형별 최적 엔진
가변값 셀만 유형별로 — 인쇄는 경량 OCR, 필기는 VLM으로 병렬 처리합니다.
양식 지문 매칭
격자에서 양식 지문을 산출해 같은 양식을 자동 인식합니다. 마킹 1회면 다음부터 자동 적용됩니다.
장애 격리
한 셀의 실패가 다른 셀로 전파되지 않습니다. 부분 실패에도 격자 구조는 보존됩니다.
자기검증 · 실측 성능
변환 정확도를 시스템이 스스로 측정
3단계 정합을 통과하지 못하면 결정적 파라미터를 자동 조정해 재실행합니다.
원본 ↔ 오버레이
임계 ≥ 98%
오버레이 ↔ HTML 셀
임계 ≥ 98%
원본·오버레이·HTML 3자 정합
임계 ≥ 95%
※ 내부 16종 검증 양식 기준 자체측정. 구조·격자 위치 정합 기준이며 텍스트 추출 정확도 전체를 보증하지 않습니다.
Product Tour
한눈에 보는 GLYPHOCR
처리량·품질·셀 구성·라우팅·결과까지 — 대시보드 한 화면에.
월별 처리량(페이지, 천 단위)
셀 유형 분포
- 인쇄추출48%
- 필기추출27%
- 고정값18%
- 제외7%
인쇄 / 필기 라우팅
- 인쇄68%
- 필기32%
주간 처리 추이
처리 품질 지표(자체측정 · 추출 정확도 아님)
- 구조 재현 정합도99.6%
- 인쇄 문자유사도98.4%
- 필기 문자유사도71.0%
양식별 처리량(페이지)
- ○○ 신청서3,120
- △△ 청구서2,480
- □□ 명세서1,940
- ◇◇ 검수서1,610
최근 결과
- 완료○○ 신청서142 셀
- 완료△△ 청구서98 셀
- 검증 대기□□ 명세서76 셀
※ 화면의 수치·항목은 데모용 예시입니다.
특허 2건 출원 중
기술 코어(컴퓨터비전 격자 + 셀 4유형 라우팅)와 시스템(양식 지문 + 마킹 재사용)을 두 건으로 출원해 보호하고 있습니다.