한국학 자료 전산처리

중앙일보

입력

지면보기

종합 08면

학술논문과 정기간행물 등의 색인을 컴퓨터로 처리하는 작업이 한국 과학기술정보센터에 의해 진행되고 있다.
한국과학기술 정보센터의 유경희 전자계산부장 팀은 「컴퓨터에 의한 자동색인 시스팀」작업을 하면서 지난3월 초 1차로 「한국학 연구 인명록」(총 8백 페이지·2권)을 퍼냈다.
이 인명록은 국내신문·잡지·논문집·저서 등에 실린 한국학에 관한 논문을 컴퓨터를 이용, 저자·제목·게재돼 있는 책이름·게재 연도별로 분류, 수록한 것으로 한국학을 연구하는 사람들에게 큰 도움을 주게됐다. 유 부장의 이 작업은 한글과 한자의 컴퓨터화 사업인 KIPS(Korean Information Processing System)-3 사업을 하다 부수적으로 개발한 것.
유 부장은 이 색인자업을 위해 우선 논문제목에 나온 말 중 연구, 관한, 및, 그, 대한 등 제목으로서는 별로 중요하지 않은 말, 즉 불용어(Stop Word)를 걸러내고 이 말들을 컴퓨터에 입력시켜 논문제목 중 유용한 말을 골라내는 KWIC(Key Word In Context)처리법을 사용했다. KWIC처리방법은 국내에서 처음 사용된 것으로 영어에서는 오래 전에 실용화되고 있다.
선진국에서는 유용한말(키워드)만 입력시키는 KWOC(Key Word Out of Context) 처리법을 많이 사용하지만 우리 글은 유용한 어휘수집이 어렵다는게 난점.
유 부장 팀은 2차로 국내 정기 간행물과 박사·석사논문집에 대한 색인 작업을 할 예정. 정기간행물 색인을 위해 우선 「우리말 표준화 보고서」1∼3권(2만6천만 어)을 펴냈다.
앞으로는 우리 나라 신문기사와 전화번호부에 대한 색인작업도 벌일 계획. 전화번호부의 색인작업이 완성되면 전화번호만 갖고도 누구의 소유인지 주소가 어딘지 등을 알아낼 수 있다.
한편 유 부장 팀이 거의 마무리 짓고 있는 KIPS-3작업은 컴퓨터 단말장치(터미널)를 이용, 한글과 한자를 찍어내는 작업으로 터미널에 부착된 한글 건반을 두드리면 문장이 한글로 찍혀 나오되 한자어가 있을 경우 컴퓨터가 자동으로 정지되고 화면에 이 단어와 발음이 같은 한자어가 동시에 나타난다. 키 펀처는 이 한자어 중 적당한 단어의 단추를 누르면 한자어가 찍혀 나오도록 한 것.
현재 한자어를 모두 컴퓨터에 인력, 건반에 기억시켜 필요한 한자를 골라 치는 방법은 매우 복잡하므로 KIPSA-3는 이 부문에서 큰 진전을 보인 사업이다.

ADVERTISEMENT
ADVERTISEMENT