(7)정상은<중앙전산원 원장>|데이터 표현법

중앙일보

입력

지면보기

종합 08면

사람은 문자로 모든 사실을 기록한다. 따라서 인간을 대신하는 컴퓨터도 어떠한 방법으로든간에 문자로 표현하고 기록하는 수단을 가지지 않으면 안된다.
우리가 사용하는 문장은 단어로 구성되어 있으며 단어는 비교적 소수의 문자로 만들어져 있다. 물론 단어의 짜임새는 언어에 따라 다르지만 영어의 경우라면 26개의 알파벳 문자로 이루어져 있다. 그러므로 만약 컴퓨터가 영어를 사용하려면 A부터 Z까지의 26개 문자를 표현하는 방법을 찾아내야 될 것인데 컴퓨터에서는 그것이 어떤 종류의 문자든간에 0과 1로 표시되는 서로 다른 두 가지의 요소만으로 모든 것을 취급하고 표현한다.
이와 같이 이원적 요소만으로 문자를 표현하는 방법은 오래 전부터 사용되어 왔는데 그 대표적인 것으로는 모르스 부호가 있다. 1837년 모르스씨가 발명한 전신기는 짧은 신호(·)와 긴 신호(-)라는 2종류의 전기 신호만을 조합하여 10개의 숫자와 26개의 알파벳 및 그밖에 여러개의 기호를 조직적으로 표현하도록 고안되었으며 오늘날까지도 달리 사용되고 있다.
컴퓨터가 2개의 요소만으로 문자를 표현하는 방법을 택하게 된 이유는 무엇보다도 기계의 구조를 단순화하여 고장이나 오동작의 발생을 극소화시켜 신뢰성을 높임은 물론 보다 신속한 처리가 가능하다는 점이다. 뿐만 아니라 컴퓨터는 그 회로자체가 기호논리에 의하여 짜여진 논리기계이며 기호논리에서는 맞고 틀리는 두가지 사실밖에는 취급될 수 없어 모든 데이터도 이완적 요소의 조합만으로 표현되어야 하기 때문이다.
컴퓨터는 0과 1을 사용하여 서로 다른 이완적 요소를 나타냄과 동시에 2진법으로 표현되는 수치까지도 처리할 수 있도록 되어 있다. 이때 0과 1중 어느 하나를 표시하는 기본단위를 비트(BIT)라 부른다. 비트는 Binary Digit(2진수)에서 유래된 말로 컴퓨터가 정보를 표시하는 최소의 단위이며 하나의 비트는 0과1의 두 값중 어느 쪽이든 한가지의 값만을 취하도록 되어 있다.
그렇다면 컴퓨터는 어떻게 비트의 조합만으로 문자를 표현할까. 1개의 비트는 0과 1밖에 나타낼 수 없지만 가령 2개의 비트를 1개조로 하면 00, 0l, 10, l1과 같이 서로 다른 4가지의 조합을 구성할 수 있으며 3개를 1개조로 한다면 000, 001, 010, 011, 100, 101, 1l0, 111과 같이 8가지의 상태를 표시할 수 있게된다. 이같은 방법으로 조합을 늘려가며 4개 비트를 1개조로 하면 16종류를 표시할 수 있고 8개를 1개조로 한다면 표현할 수 있는 종류가 2백56가지로 늘어난다.
이때 컴퓨터는 2진 숫자나 알파벳문자·특수문자 등을 0과 l로 서로 다르게 조합된 각각의 경우에 대응시켜 인코딩(Incoding)하여 사용한다.
만약 2진 숫자를 표현하려 한다면 적어도 4개의 비트를 1개조로 하여 나타낼 필요가 있다. 왜냐하면 숫자는 전부 10개인데 3개의 비트로는 8가지밖에 나타낼 수 없기 때문이다. 4개의 비트를 사용한다면 16가지의 조합을 만들 수 있어 이 가운데서 임의의 10가지를 뽑아 그것을 0에서 9까지의 10가지 숫자와 적절히 대응시키면 된다.
따라서 일반적으로 컴퓨터의 데이터표현방식이 2진법으로 되어 있다고 생각하는 것은 정확한 것이 아니다. 앞에서 설명했듯이 컴퓨터에서는 4개의 비트로 조합된 16가지 조합 중에서 아무 것이나 10개를 뽑아내 임의로 약속하는 것이므로 2진법이란 개념이 그대로 적용되는 것은 아니다. 2진화된 10진 요소의 표현이라는 것이 적합할 것이다.
숫자뿐만 아니고 알파벳문자나 특수문자까지 한꺼번에 취급할 때는 대부분의 컴퓨터가 8비트를 사용하여 「A」는 01000001, 「b」는 01000010등의 약속으로 표현하게 되는데 이때 문자들이 0과 1의 2진 숫자로 표현되어 있기는 하지만 그 본질은 어디까지나 비수식어다.
그렇지만 같은 종류의 데이터를 선별하거나 분류하는 작업에서는 이것은 2진법 수치로 간주하여 수치적인 취급을 할 수도 있다.
따라서 이렇게 2진화된 비수치어를 우리는 수치화어라 부르고 있다.
인코딩=우리가 센스가 무딘 사람을 형광등이라 부르는데 이때 「형광등」이란 단어는 센스가 무딘 것을 의미하는 전혀 다른 약속된 언어다.
이와 같이 어떤 사실을 전혀 다른 암호나 기호로 약속하여 표현하는 것을 인코딩이라 부른다.

ADVERTISEMENT
ADVERTISEMENT