'텍스트 인식'이라고도 하는 광학 문자 인식(OCR)은 지난 50여 년간 업무 환경에 서서히 사용되기 시작하면서 이제는 일상에서 쉽게 접하는 유용한 기술이 되었습니다.
콘텐츠와 기술이 주도하는 세상에서 '편의성'과 '간편성'은 비즈니스 방식을 혁신적으로 바꾸고 있습니다. 이미지로 처리된 콘텐츠를 검색 가능한 파일로 변환하는 OCR 기술 덕분에 사무실, 집은 물론 세계 어디서나 업무를 수행할 수 있게 되었습니다.
OCR이란?
OCR(Optical Character Recognition)은 인쇄된 문서를 디지털 이미지 파일로 변환하는 기술입니다. 스캔한 문서를 판독 가능한 PDF로 자동 변환하므로 문서를 손쉽게 편집하고 공유할 수 있습니다. 예를 들어, 스마트폰 등으로 영수증을 스캔하면 컴퓨터가 스캔본을 이미지 파일로 저장합니다. 이미지 파일에서는 단어를 검색, 편집하거나 단어 수를 계산할 수 없습니다. 하지만 OCR을 사용하면 이미지를 텍스트 문서로 변환합니다. 즉, 카메라 이미지, 이미지 전용 PDF, 스캔 문서 등에서 텍스트 데이터를 추출할 수 있습니다. 이 같은 방법으로 이미지로 처리된 콘텐츠를 편집 가능한 콘텐츠로 변환하므로 수동으로 데이터를 입력할 필요가 없습니다.
OCR이 중요한 이유
디지털이 일상 곳곳에 침투하고 있지만 일부 비즈니스에서는 여전히 종이 문서를 사용하고 있습니다. 송장, 계약서, 스캔한 법률 문서, 기타 종이 양식 등이 그렇습니다. 종이 문서는 물리적 공간을 많이 차지하며, 관리에 많은 시간과 노력이 필요합니다. 비즈니스 전반에서 '페이퍼리스' 문서가 대두되는 이유입니다. 한편, 문서를 이미지로 변환하면 추후 해당 문서를 활용할 때 일일이 텍스트를 입력해야 하므로 시간 소모적입니다. OCR은 이러한 시간과 비용을 줄여줍니다. 이미지를 텍스트 데이터로 변환하면 쉽게 사용할 수 있을 뿐 아니라 다른 비즈니스 소프트웨어에서도 판독이 기능합니다. 이 기술은 운영 효율성을 높이고, 분석을 수행하고, 프로세스를 자동화하여 업무 전반의 생산성을 높입니다.
시각 장애인을 위한 음성 지원 기능
OCR은 텍스트를 간편하게 스캔 및 검색하는 것 외에도, 시각 장애인에게 유용한 기능을 제공합니다. OCR 인식 프로세스는 텍스트의 언어와 구조까지 파악하며, 맞춤법이 틀린 단어를 수정합니다. 이 '맞춤법 검사' 기술을 통해 정확한 정보를 전달합니다. OCR 시스템에는 인식된 텍스트를 음성으로 들려주는 '음성 합성' 기능도 포함되어 있습니다. 따라서 시각 장애가 있는 사용자는 컴퓨터 화면을 최대로 확대해 보거나, 음성 또는 읽을 수 있는 점자판을 제공하는 적응형 기술 디바이스를 사용하여 스캔한 텍스트의 콘텐츠를 간편하게 활용할 수 있습니다. OCR 소프트웨어를 통해 스캔한 문서의 텍스트를 소리내어 읽는 기능이 각 디바이스 사양에 맞게 지원됩니다.
광학 문자 인식의 작동 방식
OCR 소프트웨어 또는 엔진은 다음과 같이 작동합니다.
1. 이미지 분석
스캐너가 문서를 판독하여 바이너리 데이터로 변환합니다. OCR 소프트웨어는 스캔한 파일을 검사하고 밝은 영역은 배경으로, 검은 영역은 텍스트로 분류합니다.
2. 사전 분석
OCR 기술은 다음 기법을 통해 이미지 품질을 개선합니다.
- 텍스트 이미지 가장자리를 매끄럽게 다듬고 데이터 이미지 얼룩 제거
- 스캔한 문서의 기울기를 보정하여 스캔 과정에서 발생한 정렬 문제 해결
- 다국어 OCR 기술로 스크립트 인식
- 이미지에 있는 선과 상자를 깔끔하게 정리
3. 텍스트 인식
OCR 기술은 특징 추출과 패턴 일치를 사용해 텍스트를 처리합니다.
- '특징 추출'은 언어적 요소를 폐쇄 루프, 선 방향, 선 교차 등 여러 구성 요소로 해체한 후, 이 요소를 사용하여 유사성이 가장 높거나 가까운 특징을 찾습니다.
- '패턴 일치'는 글리프라고 하는 문자 이미지를 분리하여 이미 저장된 다른 글리프 중에서 유사한 글리프와 비교하는 기능입니다. 패턴 인식은 저장된 글리프가 추가된 글리프와 비율과 글꼴이 유사할 때에만 성립합니다. 이 방법은 이미 알려진 글꼴로 입력된 문서를 스캔한 이미지에서 가장 효과적입니다.
4. 사후 처리
콘텐츠 분석이 끝나면 추출된 텍스트 데이터는 파일로 바뀝니다. 일부 OCR 소프트웨어는 스캔한 문서의 이전 버전과 이후 버전을 PDF에 주석으로 추가하기도 합니다. OCR이 텍스트를 인식하지 못하면 스캔 품질에 문제는 없는지, 빛은 충분한지, 스캔이 왜곡되어 있지 않은지 등을 확인하세요.
OCR 기술의 역사
OCR은 커즈와일 컴퓨터 프로덕트(Kurzweil Computer Products, Inc.) 창립자인 레이 커즈와일(Ray Kurzweil)이 1974년에 개발한 문서 변환 기술입니다. 커즈와일은 거의 모든 글꼴로 인쇄된 텍스트를 인식하는 이 기술의 활용도가 가장 높은 분야가 시각 장애인들을 위한 기계학습 장치라고 판단했습니다. 그리고 이 기술을 바탕으로 텍스트를 소리내어 읽고 텍스트를 음성으로 변환하는 판독 장치를 만들었습니다. 하지만 1980년, 그는 종이에서 컴퓨터로 텍스트를 변환하는 기술을 상용화하는 데 관심이 많았던 제록스(Xerox)에 그의 회사를 매각했습니다.
이 기술은 과거 신문을 디지털화하는 데 사용되기 시작한 1990년 초가 되어서야 대중화되었습니다. OCR은 이때부터 발전을 거듭했습니다. 그 결과, 거의 완벽에 가깝게 변환을 수행하는 이 혁신적인 OCR 방법론을 통해 문서 처리 워크플로우를 자동화할 수 있게 되었습니다. 이 소프트웨어가 보편화되기 전만 해도 문서를 디지털화하려면 손으로 일일이 재입력해야 했습니다. 그만큼 수많은 시간과 노력, 인력이 필요했고, 콘텐츠 오류도 많이 발생했습니다. 일상과 업무에서 나날이 효용성을 높이고 있는 OCR은 지금도 발전하는 중입니다.
OCR 기술의 유형
OCR 기술은 활용 분야와 사례에 따라 다음과 같이 구분됩니다.
- 단순 OCR 소프트웨어는 다양한 텍스트와 글꼴 이미지 패턴을 템플릿으로 저장합니다. 이 소프트웨어는 패턴 일치 알고리즘을 통해 여러 텍스트 이미지의 차이점을 찾아내고 내부 DB에서 문자를 하나씩 분석합니다. 광학 단어 인식은 시스템이 텍스트를 단어별로 복제하는 방식입니다. 하지만 글꼴과 손글씨 스타일은 무한하며 이를 모두 캡처하는 것은 불가능에 가까우므로 이 솔루션은 한계가 있습니다.
- 지능형 문자 인식을 일컫는 ICR 소프트웨어는 최첨단 OCR 기술의 한 분야입니다. ICR은 인간과 같은 방식으로 텍스트를 읽습니다. 머신 러닝 소프트웨어를 활용해 머신이 인간처럼 행동하도록 학습할 수 있습니다. 신경망(Neural Network)이라고 하는 머신 러닝 시스템은 텍스트를 학습하고 이미지를 반복적으로 처리합니다. 선, 곡선, 루프, 교차선 등 이미지 모양을 검색하고, 서로 다른 수준의 데이터 조합으로 최종 결과를 도출합니다.
- 지능형 단어 인식 기술은 ICR과 동일한 원리입니다. 이미지를 문자로 미리 해체하는 대신, 단어의 전체 이미지를 학습한다는 점이 다릅니다.
- 광학 표시 인식(OMR)은 문서에서 워터마크, 로고 등 다양한 텍스트 기호를 찾아냅니다.
OCR 활용 사례
OCR의 가장 대중적인 활용 사례는 인쇄 매체를 기계 판독이 가능한 텍스트 문서로 변환하는 것입니다. 이 외에도 시각 장애인을 위한 콘텐츠 변환, 데이터 자동화, 그리고 차량번호판, 송장, 여권 등 검색 엔진용 문서 등재 등에 OCR을 활용합니다.
가정과 기업을 위한 OCR 소프트웨어
개인 및 업무용으로 사용할 수 있는 OCR 소프트웨어는 다음과 같습니다.
1. Adobe Acrobat Pro
Acrobat Pro는 워크플로우를 간소화하고 문서를 효율적으로 관리하는 데 필요한 모든 OCR 툴을 제공합니다. Acrobat Pro 버전에는 기본 OCR 기능 외에 문서에 댓글과 피드백을 달 수 있는 기능, 두 문서 비교 기능, 표 스캔 도구 등 다양한 기능이 포함되어 있습니다. 스캔한 직후에도 컴퓨터 화면에서 문서를 조정할 수 있습니다. Acrobat OCR은 무료 Adobe Scan 앱과 완벽히 연동되므로 문서를 스캔한 다음 PDF로 변환하면 텍스트가 자동으로 인식됩니다. 그런 다음에는 Adobe OCR 툴을 사용하여 필요에 따라 텍스트를 조정할 수 있습니다.
2. OmniPage Ultimate
이 소프트웨어는 변환의 정확성이 높은 것으로 알려져 있습니다. OmniPage Ultimate을 사용하면 문서를 올바른 형식으로 원하는 위치에 자동으로 전달하는 맞춤형 워크플로우를 구축할 수 있습니다.
3. Abbyy FineReader
Abbyy FineReader는 종이 문서를 디지털 문서로 변환하는 데 필요한 모든 툴을 제공합니다. 이 소프트웨어는 텍스트를 인식하여 PDF, Microsoft Office 형식 등 다양한 문서 형식으로 변환합니다. 문서를 비교하고 주석, 댓글 추가 등의 작업도 할 수 있습니다. 수많은 문서를 일괄적으로 변환하고 다양한 출력 형식과 192개의 다국어를 처리합니다.
4. Readiris
Readiris에서는 다양한 파일 형식을 지원합니다. 댓글, 워터마크, 주석 등과 함께 서명과 보안 기능을 추가할 수 있습니다.
5. Rossum
Rossum은 송장을 스캔하여 그 속에 담긴 중요한 정보를 사용 중인 프로그램으로 내보내기 위해 만들어졌습니다. 템플릿 형식을 사용하는 대신, AI를 기반으로 문서의 중요한 정보를 스캔합니다. 송장마다 다른 방식으로 정보를 표시하도록 서식을 지정할 수 있어 유용합니다.
실제 OCR 애플리케이션
개인적인 필요와 업무에 따라 사용할 수 있는 다양한 OCR 소프트웨어와 툴이 있습니다.
- 스캔한 문서를 OCR에 적합한 여러 섹션으로 분할하는 레이아웃 분석 소프트웨어
- 문자를 식별하는 OCR 엔진
- 문서 이미징 관리 시스템, 기록 관리 솔루션, 양식 처리 애플리케이션 등 다른 소프트웨어에 OCR 기능을 추가할 수 있는 소프트웨어 개발 키트
- 하나 이상의 OCR 엔진에 탑재된 그래픽 인터페이스
비즈니스 분야의 OCR 기술
비즈니스가 성장하면 업무량도 함께 증가합니다. 이때 OCR 기술을 사용하여 특정 업무를 자동화하면 업무 부담을 크게 줄일 수 있습니다.
기업에서 OCR 기술을 도입하면 수동으로 데이터를 입력하는 작업을 없애고 중요한 비즈니스 업무에 더욱 집중할 수 있습니다. OCR의 자동화된 데이터 추출과 스토리지 기능을 통해 워크플로우와 효율성을 개선할 수 있습니다. 비용을 절감하고, 데이터를 디지털화하여 한곳에서 더 안전하게 관리할 수 있습니다. 또한 기업은 OCR로 데이터를 Excel 시트로 변환하여 온라인 환경에서 콘텐츠를 볼 수 있습니다. 콘텐츠가 온라인 환경에 존재하면 문서 손실, 도난의 위험이 줄어듭니다. 디지털 문서를 사용하면 모든 사람이 최신 정보에 간편하게 액세스할 수 있으므로 모두가 쉽고 효율적으로 정보를 공유하게 됩니다.
교육 분야의 OCR 기술
OCR 소프트웨어는 학생들의 학습을 돕는 교육 툴로도 사용할 수 있습니다. 다음은 몇 가지 예입니다.
- 텍스트를 음성으로 변환하여 단어를 소리내어 읽어주므로 노트 필기가 쉬워집니다.
- 텍스트 색상 또는 크기를 변경할 수 있습니다.
- 단어, 문장, 단락을 강조하여 표시할 수 있습니다.
- 디지털 책갈피를 이용하여 원하는 부분의 텍스트로 간편하게 이동할 수 있습니다.
OCR은 난독증이 있는 학생들의 학습 효과를 높여주는 유용한 툴이기도 합니다. 종이 과제 시트를 스캔하여 디지털 문서로 변환한 다음, 툴을 사용해 문서를 읽을 수 있습니다.
의료 분야의 OCR 기술
OCR은 의료 업계에서 검사, 병원 기록, 치료, 보험금 지급 등 환자 기록을 처리하는 데 사용합니다. 이 기술을 통해 워크플로우를 간소화하고 수작업을 줄일 수 있습니다. OCR을 사용하면 기록을 더 쉽게 관리하고 문서를 최신 상태로 유지할 수 있습니다. 데이터를 전산화하는 데 걸리는 시간이 줄고 입력한 데이터의 정확도도 증가합니다. OCR은 데이터 입력 시 오류 발생 가능성도 줄여줍니다.
전자 건강 기록(EHR)에 있는 정보도 쉽게 검색할 수 있습니다. 예를 들어 환자의 의료 기록이 EHR에 저장되어 있는 경우, 의사는 OCR 검색을 통해 필요한 정보를 신속하게 찾을 수 있습니다. 종이 의료 기록을 스캔하여 디지털로 변환하면 의료진이 원하는 정보에 간편하게 액세스할 수 있습니다. 또한 처방전과 같은 중요한 문서를 스캔하면 전달하는 과정에서 발생할 수 있는 오류 가능성을 줄여 환자를 안전하게 보호할 수 있습니다. 한편, OCR을 통해 디지털 양식을 작성하면 종이와 시간을 절약하고, 문서 관리가 훨씬 간편해집니다.
OCR과 머신 러닝, 그 다음 단계는?
OCR과 머신 러닝은 지난 20여 년간 기하급수적으로 성장했습니다. 이 성장세는 당분간 계속될 전망입니다. 차세대 OCR은 이전처럼 문자 인식 소프트웨어에 국한되지 않고 머신 러닝과 인공 지능을 기반으로 진화하고 있습니다. 그런 만큼 OCR 소프트웨어는 스스로 사고하고 학습하는 방향으로 나아갈 것입니다.
미래의 OCR 기술은 스캔한 텍스트를 인식하는 데 그치지 않고 텍스트의 의미를 찾고 콘텐츠를 이해할 수 있게 됩니다. 딥 러닝(Deep Learning)이 계속 진화하여 OCR 기술이 한 단계 더 진화하면 머신 러닝은 과거의 역사속으로 사라질 수도 있습니다. 딥러닝 기술은 알고리즘이 정확도를 결정하는 데 과거 패턴에 의존하지 않도록 인간의 뇌 기능을 모방한 신경망으로 구성됩니다. 기술이 스스로 학습하는 딥 러닝은 텍스트를 인식하는 것은 물론, 텍스트의 의미까지 이해합니다.
OCR로 프로세스를 간소화하고 효율성을 높이는 방법
OCR 소프트웨어와 기술로 수작업과 시간, 비용을 줄일 수 있습니다. 인쇄된 문서를 검색이 가능한 스마트한 디지털 문서로 변환하면 정보를 훨씬 쉽게 이용할 수 있으므로 고객과 직원 모두에게 더 나은 경험을 제공할 수 있습니다. OCR 기술을 활용하면 기업은 다음과 같은 이점을 얻을 수 있습니다.
- 손으로 작성한 문서를 편집 가능한 디지털 문서로 변환
- 손으로 작성한 양식을 스캔하여 검토, 확인, 분석, 편집 자동화. 이를 통해 수동 문서 처리 및 데이터 입력 시간 절약
- 데이터베이스에서 원하는 문구를 검색하여 중요한 정보 및 문서를 빠르게 확보(물리적 파일을 일일이 찾을 필요가 없음)
- 디지털 문서로 데이터를 한곳에서 안전하게 저장하여 문서 분실 및 도난 방지
- 정보를 가장 정확한 최신 상태로 유지
OCR 기술을 통해 편의성과 접근성이 향상되면 기업은 직원의 업무 부담을 줄이고 클라이언트에 더 나은 서비스를 제공할 수 있습니다.