표점이란 원문 전체가 하나의 문장처럼 붙어서 작성된 고전 한문 텍스트에 대해 의미 단위로 띄어쓰기하고 온점(。마침표)과 반점(, 쉼표) 등 구두점을 찍어 문장을 구분하는 것을 말한다. 이러한 표점 작업은 한문 원문을 정확하게 해석하거나 현대어로 번역하자면 반드시 선행되어야 하는 과정으로, 지금까지는 전문 연구자들이 원문 텍스트 한 줄 한 줄에 대해 꼼꼼히 읽고 의미 단위마다 일일이 구두점을 찍는 고된 작업을 해 왔다.
누리IDT의 고성능 〈자동 표점 서비스〉는 이러한 표점 작업을 AI가 빠르고 정확하게 자동 처리해 준다. 누리IDT는 이를 위해 트랜스포머 계열의 최신 자연어처리(NLP) 모델로 1억 자 이상의 한문 데이터를 학습시킨 자동 표점 AI 모델을 개발하고 누구나 사용할 수 있는 서비스로 공개했다. 1,000자 분량의 한문 원문 텍스트를 입력하면 1초 이내에 표점 처리해 주며, 표점의 정확도는 90% 이상으로 관련 전공 석사 수준을 능가한다. 이 서비스를 이용하면 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다.
누리IDT는 이와 함께 AI 모델이 초서체 한자와 옛 한글, 국한문 혼용문을 자동 인식하는 〈고문헌 OCR 서비스〉 3종도 새로 개발해 출시했다. 누리IDT는 지난해 5월 AI 모델이 고문헌의 해서체와 행서체 한자를 평균 98%의 정확도로 자동 인식하여 디지털 텍스트로 변환해 주는 고성능 〈한자 OCR 서비스〉를 개발하여 각계의 호평을 받은 바 있다.
그리고 흘려쓴 손글씨인 초서체 한자를 AI가 인식하여 정자(正字)로 자동 변환해 주는 〈초서 OCR〉, 한글 고문헌을 읽어주는 〈옛 한글 OCR〉, 한자와 한글이 혼용된 고문헌 문서를 읽어주는 〈국한문 혼용 OCR〉 등 3종의 AI 기반 OCR 모델을 새로 개발하여 기존 해서/행서체 고문헌 한자 OCR 서비스에 추가해 출시한 것이다.
손글씨로 흘려쓴 초서 필사본은 〈승정원일기〉와 같은 국가 공식 기록물을 비롯해 각종 공문서, 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있다. 하지만 소수의 초서 전문가들이 일일이 탈초(정자로 옮겨쓰기)해 주기 전에는 고문헌 연구자들도 판독하기 어려워하는 대상이었다. 그러한 초서 원문을 본 〈초서 OCR〉 서비스를 이용하여 연구자들을 포함해 누구나 쉽고 간편하게 읽고 콘텐츠 데이터로 활용할 수 있게 된 것이다.
누리IDT의 〈고문헌한자시스템〉은 고문헌 자료의 자동 인식 → 자동 표점 → 자동 번역이란 자동 처리 솔루션을 목표로 하는 서비스이다. 〈고문헌 OCR〉 3종과 〈자동 표점 서비스〉를 신규 출시하면서 누리IDT의 배성진 대표는 “작년에 〈고문헌 한자 OCR〉을 출시한 이후 지속적인 기술 투자로 고문헌 토털 솔루션의 두 번째 단계에 도달하게 되었다. 앞으로 출시 서비스의 성능 향상에 노력하는 한편, 고문헌 자료의 자동 번역 모델 개발에 착수하여 누구나 손쉽게 고문헌 콘텐츠에 접근할 수 있도록 하겠다.”고 의지를 밝혔다.
본 서비스는 누구나 〈누리IDT고문헌한자시스템〉 웹페이지에서 간단한 회원 가입을 거쳐 사용해 볼 수 있다.