ADVERTISEMENT
오피니언 임문영의 호모디지쿠스

미로 푸는 실타래 웹, 헨젤과 그레텔의 쿠키 … 데이터가 IT산업 마법의 열쇠

중앙일보

입력

지면보기

종합 20면

컴퓨터 용어 중에 GIGO라는 것이 있다. “쓰레기를 넣으면 쓰레기가 나온다”(Garbage in garbage out)는 것으로 프로그램이나 자료를 다룰 때 재료가 어떤가에 따라 결과가 다르다는 뜻이다. 사실 재료가 신선하고 좋으면 레시피와 상관없이 음식은 맛있을 수밖에 없다.

정보기술(IT)에서는 이 재료가 데이터다. 좋은 데이터가 있으면 좋은 프로그램 결과물을 만들 수 있다. 이와 함께 자료를 엮어 내는 방법도 중요하다. 역사적으로 눈이 좋기로 유명했던 천문학자로 ‘튀코 브라헤’가 있다. 그는 어릴 때 우연히 일식을 목격한 뒤로 밤하늘의 별을 관찰하는 것을 평생의 업으로 삼았다. 아예 천문대를 세우고 행성의 위치를 끊임없이 관찰했다. 중요한 것은 기록했다는 것이다. 그것이 어떤 의미였는지는 시력 대신 계산능력은 뛰어났던 제자 케플러에 의해 밝혀졌다. 케플러는 스승의 행성 위치 데이터를 토대로 계산을 거듭한 끝에 ‘케플러 법칙’을 발표한다. 행성의 공전 궤도가 타원이고 태양과의 거리에 따라 속도가 달라진다는 것이다. 이로써 인류는 하늘의 별이 만들어지기도 하고 사라지기도 한다는 것을 알게 되었고 지구도 하늘의 별과 마찬가지로 스스로 움직이고 회전한다는 것을 깨닫게 됐다.

새로운 혁신과 통찰의 발견은 결국 성실한 데이터의 수집과 기록, 정리가 필요한 것이다. 이렇게 데이터에 대한 세밀한 관찰은 때로 우리가 막다른 길목에 갇혔을 때 신비로운 활로를 열어 주기도 한다.

붓과 종이만 가지고 있던 우리 조상들은 조선왕조실록·승정원일기·난중일기 등 세계기록유산을 남길 만큼 꼼꼼했다. 그런데 정작 현대에는 제대로 된 기록을 보관하지 못하고 있다. 근현대사 역사 기록의 발굴과 보관은 차치하고라도 당장 정권교체를 앞둔 최고 권부 청와대가 앞장서 자료를 삭제하는 일까지 벌이는 지경이다.

예전에 한 방송 프로그램 제작사 창고에서 전 세계의 유명한 레스토랑과 맛집을 찾아다닌 녹화테이프가 모두 보관된 걸 봤다. 하지만 촬영 때 만난 사람의 연락처, 음식 재료와 찾아가는 길 등 다양한 정보(Metadata)가 적힌 수첩은 폐기됐다. 녹화테이프만으로는 방송 맥락을 이해할 수 없고 활용도 불가능했다.

공공기관에는 수십 년 동안 아래한글 형식으로 문서가 저장돼 보관되어 있다. 이 문서파일 포맷은 표준이 아니다 보니 다른 프로그램에서는 불러쓰기 어렵다. 기계가 읽어들여 지속적으로 이용할 수 있는 데이터(Machine readable data)는 아닌 것이다.

모든 흔적은 데이터가 될 수 있다. 인터넷에는 ‘흔적’을 의미하는 단어가 많다. 거미줄을 뜻하는 웹(web)은 실타래를 이용해 미로를 탈출했다는 신화 속 영웅 테세우스를 떠올리게 하고. 쿠키(cookie)는 ‘헨젤과 그레텔’에서 과자 부스러기를 떨어트려 길을 찾아 집에 되돌아왔다는 동화를, 로그(log)는 바다 위에 통나무를 띄워 속도를 측정했던 선원들의 이야기를 연상시킨다.

요즘 인공지능 시대를 맞이하면서 인공지능 개발자와 데이터 분석가에 대한 수요도 급증하고 있다. 하지만 진짜 정작 애써야 할 것은 관찰과 기록을 통해 좋은 데이터를 만들고 공유하는 것이어야 한다. 철이 제조업의 쌀이고 반도체가 전자산업의 쌀이었다면 데이터는 IT 산업의 쌀인 셈이다.