ADVERTISEMENT

은하에서 매일 받는 데이터 영국 국립도서관 60개 분량

중앙선데이

입력

지면보기

476호 27면

미 항공우주국(NASA)이 최근 허블 우주 천체망원경 탄생 26주년을 맞아 공개한 허블 망원경의 ‘거품 성운(BubbleNebula)’. 이 성운은 8000 광년 떨어진 카시오페이아 별자리에 있으며 거대한 가스와 먼지 구름이 성운 내부의 별빛의 조명을 받고 있다.

글로 기록되던 문서들이 하나 둘 씩 비트(bit)로 변환되고 있다. 1비트는 0과 1로 이루어진 2가지 다른 정보를 구별할 수 있다. 그 비트 두 개가 모이면 4가지 다른 정보로 변환된다. 이렇게 8개의 비트가 모이면 256개의 다른 정보를 구별할 수 있다. 알파벳 소문자·대문자, 숫자, 특수부호 등 다양한 문자·부호가 이 256가지 경우의 수로 충분히 표현될 수 있어 컴퓨터에서 문자를 저장하는 기본단위는 8비트가 되고, 이것을 1바이트(byte)라고 부른다. 컴퓨터의 저장용량은 비트보다는 문자의 기본단위인 바이트로 환산하면 이해하기 쉽다. 예를 들어 1킬로바이트는 글 1000자를 저장할 수 있는 용량이라는 것을 쉽게 알 수 있다.


종이 문서가 사라지고 비트로 변환되는 것을 우려스럽게 바라보는 시각도 있다. 현대 문명이 미래에 어떤 형태로든 단절될 가능성을 배제할 수 없다. 비트를 코딩해 문서로 읽을 수 있는 기술이 미래에도 보존될 것이라고 아무도 장담하지 못한다. 종이 문서와는 다르게 코딩할 수 없으면 비트로 저장된 자료는 무용지물이다. 또한 현재 알려져 있는 저장장치 중에서 반영구적인 것은 없다. 종이 문서와는 다르게 보관 중에 어느 부분에서 자료가 유실되고 있는지 파악하는 것이 쉽지 않다는 단점도 있다.


 종이 문서 대신 모든 지식은 비트로 저장하지만 이러한 우려에도 불구하고 종이 문서는 빠른 속도로 사라지고 모든 지식은 비트로 저장되고 있다. 매년 엑사(exa, 1018=100경) 바이트 이상의 자료가 새로 생성되고 있다. 그 이유는 문서의 글이 비트로 변환되면 가공할 만한 힘을 발휘하기 때문이다. 컴퓨터는 대용량 저장창고에서 찾고자 하는 정보를 쉽게 분류해서 집중시킬 수가 있다. 통계 예측에서 모집단의 크기가 클수록 예측의 정확도가 향상되는 것처럼 더 많은 자료를 읽고 처리할수록 더 신뢰할 수 있는 예측도 가능하다.


빅데이터 기술은 대형 저장용량과 데이터 마이닝(data mining) 능력을 동시에 의미한다. 알파고(AlphaGo)가 이세돌을 이길 수 있었던 이유는 단순히 많은 기보를 확보했기 때문이 아니다. 대국 중에 2000여 대의 컴퓨터를 병렬로 가동해서, 저장된 자료에서 패턴을 읽어내고 분석하는 데이터 마이닝을 할 수 있었기 때문이다. 매번 새로운 상황이 닥칠 때마다 보유한 기보에서 유사한 패턴을 찾아내 우선 순위를 결정하고, 그에 따른 승률을 환산해야 한다. 데이터 마이닝은 저장 장치와의 자료 송수신 속도와 연산능력 등에도 영향을 받는다. 연산능력은 병렬처리 기법을 사용해 가능한 많은 수의 프로세스를 연결해 해결한다고 해도, 빠른 자료 송수신 부분은 아직 테라(tera, 1012=1조) 바이트 단위 저장장치 내에서만 가능하다. 지구상에는 대략 20 엑사바이트의 자료가 범람하고 있는데, 이 모든 자료를 동시에 처리할 수 있는 데이터 마이닝 기술은 존재하지 않는다는 것이다.

문관 출신의 천문학자로서 조선 전기 천문학 이론을 정립하는 업적을 남긴 이순지와 그가 저술한 『칠정산외편』.

조선시대 월식 정확히 예측한 이순지하늘의 별을 기록하는 방식도 문서에서 비트로 전환되고 있다. 15세기 조선에도 지구가 둥글다는 사실을 알고 있었던 천문학자가 있었다. 이순지(李純之, ?~1465)는 월식이 일어날 때 보이는 둥근 그림자가 지구의 그림자라고 주장했다. 지구와 달의 주기적인 운동 중에 지구가 태양과 달 사이에 위치하게 돼 월식이 일어난다는 것이다. 사람들은 ‘그럼 다음 월식이 언제 일어나는 지 예측해 보라’고 했다. 이순지는 다음 월식을 정확하게 예측해낸다. 그의 나이 약관 29세 때 이야기다. 그는 서구의 천문력을 분석해 한국의 밤하늘에 적용할 수 있도록 재해석했다. 그가 저술한 『칠정산외편(七政算外篇 )』에는 태양·행성의 운동과 277개 별자리의 위치와 밝기가 기록돼 있다. 277개 정도의 별자리면 『칠정산외편』 3책 정도의 문서에 보관하고 있다가, 돌판 등에 새겨 전시할 필요가 있을 때 문서를 찾아 사용하면 된다. 그런데 만일 저장해야 할 은하의 수가 수백 억개에 이르면 문서로 보관된 자료를 효율적으로 사용하는 것은 어려워진다.


21세기의 천문 관측은 사람이 하지 않는다. 현대의 모든 망원경에 설치돼 있는 디지털 카메라 혹은 분광기는 컴퓨터에 의해 제어된다. 관측한 밤하늘의 빛을 광자(光子)로 환산하면 관측 정보의 최소단위를 알 수 있다. 광자 하나는 컴퓨터에 8바이트의 정보로 저장될 수 있다. 컴퓨터가 “ThankYou”라는 글을 저장할 수 있는 용량으로 관측된 광자 하나의 정보를 담아낼 수 있다. 우리가 알고 있는 허블망원경은 하루에 20억개의 광자를 담아냈다. 이것을 저장 기본단위를 이용해서 계산해 보면 하루에 필요한 저장용량은 150기가(giga, 109=10억) 바이트가 된다. 이 정도 자료는 지금 내 책상에 놓여져 있는 컴퓨터로도 어렵지 않게 처리할 수 있다.

중력렌즈 현상 아주 먼 천체에서 나온 빛이 중간에 위치한 은하 집단 같은 거대한 천체로 인해 지구에 도달하는 과정에서 휘어져 보이는 현상을 말한다.

그런데 조만간에 새로운 천문 세상이 열리게 된다. 2000년대에 접어들면서 미지 물질의 정체를 규명하기 위한 새로운 망원경이 필요했다. 우주에 인간이 이해하는 미지 물질이 95%에 이른다. 이해하고 있지 못할 뿐만이 아니라 직접 관측할 방법도 없다. 이 미지 물질 중 일부는 보이지는 않지만 고밀도 지역에 모여 중력장을 형성하고 있다. 빛이 이 중력장을 지나갈 때 휘어지기 때문에 이 현상을 분석하면, 미지 물질이 만들어낸 중력장의 분포를 통해 그 정체도 규명할 수 있다. 그런데 빛이 아주 큰 천체 주변을 지나갈 때는 경로가 휘어지는 강한 중력렌즈 현상을 볼 수 있지만, 대부분의 중력장은 그 크기가 작아서 빛이 휘어지는 현상을 볼 수 없다.


멀리 있는 은하가 아주 미세한 중력장을 통과하고 우리 눈에 들어오면 빛이 꺾이는 현상을 볼 수는 없지만 은하의 모양이 조금 변하는 현상은 관측할 수 있다. 이 변화는 너무 작아서 하나의 은하를 가지고는 이 변화를 검출할 수 없다. 하지만 작은 물방울도 많이 모이면 컵을 가득 채운다. 시선상의 같은 중력장을 통과한 은하를 하나가 아닌 수 천 혹은 수 만개 정도를 관측한다면 이 작은 변화를 보다 더 정밀하게 관측할 수 있다. 미지 물질은 우주 공간을 가득 채우고 있기 때문에, 우주 전 공간에 걸쳐서 수 많은 은하를 관측하면 눈에 보이지 않는 미지 물질의 중력장을 알 수 있다. 이것이 새로운 망원경을 설계하게 된 동기다.

고화질 동영상 ‘우주 영화’도 개봉 박두벨 연구소(현재는 캘리포니아대 데이비스 캠퍼스 소속)의 토니 타이슨(Tony Tyson)은 이 관측을 위해 직경이 10m에 이르는 광학 망원경을 제안한다. 이 망원경으로 하늘을 보면 한 번에 달의 크기 정도에 해당하는 하늘을 볼 수 있다. 이 정도 크기의 하늘에는 수 십 만개의 은하가 아주 작은 점처럼 분포한다. 이런 은하를 관측하기 위해서는 매우 정밀한 카메라가 필요하다. 타이슨은 3200메가(mega,106=100만) 픽셀 카메라를 이 망원경에 장착했다. 인류 역사상 가장 큰 카메라를 장착한 망원경 LSST(Large Synoptic Survey Telescope)다.

우주 은하 관측을 위해 인류 역사상 가장 큰 카메라를 창착한 천체망원경 LSST와 이 연구를 이끌고 있는 미 캘리포니아대학의 토니 타이슨 교수(위).

LSST는 30초마다 한 장의 고해상도 사진을 생산해낸다. 이렇게 하룻밤 관측하면 15 테라바이트의 자료가 모이고, 이 원본을 정제하면 300 테라바이트의 자료가 생산된다. 이런 관측을 10년 간 진행하면 대략 200억 개의 은하를 관측할 수 있고, 정제된 자료 용량까지 고려하면 500페타(peta,1015=1000조) 바이트의 자료가 나올 것으로 예상된다. 우리는 천문학에서 시작되는 새로운 빅데이터 세상으로 접어들게 되는 것이다. 매일 밤 300 테라바이트의 자료를 생산한다는 것은 단행본과 필사본 2000만권을 보유한 영국 국립도서관이 하루에 60개씩 생겨나는 것과 같다.


LSST는 매일 밤 약 1000만개의 밝기가 변하는 현상을 관측할 것으로 예상된다. 이 새로운 정보는 1분마다 1만개씩 천문학자들에게 전달된다. 전 세계 천문학자의 수는 2만여 명 정도다. 세상의 모든 천문학자가 LSST 자료분석에만 매달린다고 해도 새로운 천체 현상을 1인당 2분에 하나씩 쉬지 않고 분석해야 한다. 불가능한 일이다. 천문학의 빅데이터 환경은 새로운 연구 패러다임을 동반할 것이다. 천문관측 자료가 전문가에서 시민 과학자의 손으로 이동할 것으로 예상된다. 이미 ‘은하 동물원(Galaxy Zoo)’처럼 시민과학자들이 신뢰할 수 있는 결과물을 보여주었다. 이제 천문학은 전문가의 전유물이 아닌 세상 모두의 자산이 될 지도 모른다. 이 방대한 자료는 우주 미지 물질 탐색에 활용될 뿐만이 아니라, 태양계와 우리 은하계 정밀 탐색, 그리고 사진 한 장에 담긴 은하가 아닌, 고화질 동영상에 담긴 은하 연구도 가능할 것으로 보고 있다. 2021년부터 우주 영화가 개봉되는 것이다.


LSST 자료를 사용하기 위해서는 수백 페타바이트의 자료를 처리하는 빅테이터 마이닝 연구가 시작돼야 한다. 지금은 불가능하지만 자료를 받기 시작하는 2021년부터는 하드웨어의 발전과 소프트웨어의 향상으로 어려움을 극복할 것이다. 이렇게 얻은 빅테이터 기술은 단순히 천문학 뿐만이 아니라 여러 분야에 응용될 것이다. 한국의 천문학자들도 LSST에 참여를 결정하고 천문학 빅데이터 마이닝 기술에 도전을 시작하고 있다. 그 노력이 결실을 맺어 하늘의 아름다움을 모두에게 나누어 줄 수 있게 되기를 희망한다. (도움을 주신 한국천문연구원 신민수 박사님께 감사드린다.)


송용선한국천문연구원 책임연구원

ADVERTISEMENT
ADVERTISEMENT