ADVERTISEMENT

New Generation, 펜티엄 4 [8]

중앙일보

입력

의문은 바로 이것이다. 펜티엄4 가 생각보다 빠르지가 않다라는 이슈다. 전반적으로 이번 벤치마크 테스트에서 펜티엄4 1.5GHz 는 펜티엄3 1GHz 에 비해 균일한 퍼포먼스 향상을 보여주지 못하고 있다. 작게는 15% 부터 크게는 43% 에 이르기까지 들숙날쑥 하고 있다는 점이다. 아니 어떤 부분에서는 펜티엄3 1GHz 보다 처지는 성능을 보여주고 있기도 하다. 도대체 왜 이런 것인가 ? 새로운 신제품은 당연히 기존 제품에 비해 성능이 좋아야 하는 것이 아닌가 ?

20단계의 파이프라인 구조

위의 그림은 기존 펜티엄2/3 계열과 새로운 펜티엄4 계열사이의 파이프라인의 차이점을 설명한 분석도이다. 펜티엄4 는 펜티엄2 나 3와 비교해볼때 상당히 많은 갯수인, 20단계의 파이프라인 구조를 가지고 있다. 그렇다면 도대체 CPU에서 파이프라인이란 무엇을 의미하는것일까 ?

여기에 간단한 예를 들어 설명해보도록 하자. 일주일동안 쌓아둔 지저분한(?) 옷 한뭉치가 있다고 생각을 해보자. 오늘은 모처럼 쉬는 일요일, 룸메이트와 함께 오랜만에 세탁을 해보기로 했다. 일단 파이프라인의 개념을 모르는 사람일 경우에는 아마도 다음과 같이 일을 수행할 것이다.

1. 더러운 옷 하나를 세탁기 속에 집어 넣는다.
2. 세탁이 끝나면, 젖은 옷을 드라이어에 넣는다.
3. 드라이가 끝나면, 마른 옷을 테이블 위에 놓고 차근차근 포갠다.
4. 포개는 일이 끝나면, 옆의 룸메이트에게 옷을 치워주라고 부탁한다.

최종적으로 룸메이트가 옷을 치우면, 다시 두 번째 더러운 옷을 세탁기에 집어넣는다.

이상의 과정은 파이프라인이 없는 경우일 때를 가정한 경우이다. 그러나 이러한 작업에 파이프라인이 존재한다면 어떻게 될것인가 ? 그럴경우는 아마도 아래와 같이 일이 진행이 될 것이다.

위의 1단계에서 세탁기가 다 돌아가면, 주인공인 나(CPU)는 첫번째 젖은 옷을 드라이어에 넣으면서 그와 동시에 두 번째 더러운 옷을 세탁기 속에 집어넣을 것이다. 결국 두가지 작업이 같은 시간에 이루어지는 것이다. 잠시후 드라이가 끝나면 나는 첫번째 옷을 테이블위에 놓고 차근차근 개면서, 두번째 젖은 옷을 드라이어에 넣어서 돌리고, 세번째 더러운 옷을 세탁기에 넣고 돌린다. 잠시후 포개는 일이 끝나면 나는 룸메이트에게 첫번째 옷을 치워달라고 부탁하고, 두번째 옷을 테이블 위에 놓고 포개며, 세번째 옷을 드라이버에 넣고, 네번째 옷을 세탁기에 넣을 것이다.

첫번째 경우와 두번째 경우중 어떤것이 더 빨리 작업이 진행될 것이라고 생각하는가 ? 당연하겠지만 두번째 경우가 훨씬 빨리 마무리 될 것이다. 첫번째 케이스는 처음 세탁물을 완전히 정리한후에, 두번째 작업을 진행하는 형식이기 때문에 5가지 명령어 연산 과정중에서 매 순간마다 한가지 명령만 수행되는 방식이지만, 두번째 케이스는 각각의 항목에 항상 명령들이 채워져있어 끊임없이 진행되고 있기때문에, 시간과 능률면에서 훨씬 효율적인 동작이 가능하다. 바로 이러한 두 번째 작업진행 방식이 파이프라인 구조인 셈이다. 때문에 효율적인 파이프라인 구조는 고성능의 CPU 프로세서에 있어서 아주 핵심적인 기능을 담당하게되는 중요한 이슈중 하나라고 볼 수 있다.

그런데 문제는 이러한 펜티엄4 의 20단계의 파이프라인 구조가 너무 많은 것이 아니냐는 의견이, 개발자들 사이에서 조금씩 흘러나오고 있다는 점이다. 파이프라인 개수가 많아질수록 보다 더 높은 클럭의 프로세서를 손쉽게 생산할수 있다는 장점은 있지만, 문제는 하나의 명령어를 실행한후 결과값이 나오기까지 20단계의 파이프라인을 전부 거쳐야 한다는 점이 비효율성의 하나로 대두되고 있는 것이다. 이렇게 파이프라인 처리도중에 명령어가 FPU 나 ALU 에 머무르고 있는 시간을 전문용어로 레이턴시(latency) 라고 칭한다. 20단계의 커다란 파이프라인 구조는 일반적으로 다단계 연산을 필요로하는 명령어 구조에서는, 그 퍼포먼스를 유감없이 발휘할수 있지만, 비교적 심플한 연산만을 수행하는 애플리케이션일 경우에는 오히려 역효과를 일으킬수도 있는 단점을 동시에 지니고 있기도 하다. 펜티엄3는 12단계의 파이프라인 구조를 가지고 있기 때문에, 펜티엄3 에 최적화된 소프트웨어일 경우 CPU 에 입력되는 명령어 집합이 12단계 파이프라인에서 최적화된 성능을 발휘할수 있도록 코딩되어져 있을 확률이 상당히 높다. 이런 관점에서 볼 때 12단계의 파이프라인에 최적화된 명령어 집합이 들어올 경우에는 펜티엄4 보다는 펜티엄3 에서 조금더 빠른 속도로 결과값을 얻어낼수 있다는 이슈가 생길수도 있는 것이다. 펜티엄4 는 어찌되었던 20단계의 파이프라인을 전부 거쳐야 결과값이 나오는 구조로 되어있기 때문이다. 물론 인텔 역시 이러한 아키텍쳐에 대한 의문이 제기될 수도 있을것이라는 것을 잘 알고 있을 것이다. 그래서 인텔은 그러한 문제점을 높은 CPU 동작 클럭과 400MHz 시스템 버스, 그리고 새로운 SSE2 명령어 SET 등 새로운 기능으로 극복하려고 노력하고 있는 것이다. 그리고 이러한 기술적 노력은 상당부분 성공하고 있는 것으로 보여지고 있다. 펜티엄3 와 펜티엄4의 아키텍쳐가 확연하게 바뀌어졌음에도 불구하고, 몇몇 애플리케이션을 제외하곤 전반적으로 펜티엄3 보다 우수한 성능을 발휘하고 있는 것이다.

따라서 펜티엄4 의 성능을 현재 애플리케이션 환경에서 테스트한다는 것은 분명히 무리수가 있다. 아직 마당에 멍석이 깔아져 있지 않기 때문이다. 펜티엄4 의 성능은 개발자들이 펜티엄4 의 20단계 파이프라인의 잇점과 구조를 정확히 이해하고, 이를 효율적으로 사용할수 있는 애플리케이션이 나온 이후에나 올바른 평가가 나올수 있다. 아직 펜티엄4 라는 꽃봉우리는 때를 기다리며 만개하지 않은 것이다.

애플리케이션의 지원

펜티엄4 가 성공하기 위해선 바로 이점이 중요하다. 펜티엄4에서 새롭게 선보이고 있는 SSE2 명령어 SET. 이 명령어 SET 에는 새로운 144개의 명령어가 포함되어 있다. 이 명령어들을 잘 사용하는 경우에는 3D 그래픽/게임 환경에서 상당히 만족스러운 성능향상을 이끌어 낼수 있는 구조로 되어있다. 퀘이크3 의 NV15 데모 벤치마크 결과와 3D Studio MAX 의 결과값을 살펴보면 아직 펜티엄4 에 최적화된 드라이버가 나오지 않았음에도 불구하고, 수긍할만한 성능향상을 보여주고 있다. 때문에 앞으로 P4 에 최적화된 드라이버가 나온다면 그 성능향상은 무시하지 못할정도가 되어버릴 것이다.

그래서 MS 는 DirectX 8.0 에서 펜티엄4 의 새로운 SSE2 명령어 적극적으로 활용한다는 정책을 세운 것이다. 괜히 빌게이츠가 사업의 귀재라고 불리우는 것은 아니다. 미래를 꽤뚫어보고 시장을 주도할 수 있는 방법이 무엇인지를 알고 있는 기민함. 바로 이점이 오늘날의 MS 를 있게 만든 원동력중에 하나임을 부정할 수가 없다. 결국 D3D 성능에 관한한 펜티엄4 는 내년에 새로운 퍼포먼스의 기준을 세우게 될 것이다. 때문에, 내년에는 하드코어 3D 게이머들이 펜티엄3 를 벗어나, 펜티엄4 로 이주하게 될 가능성이 높아지게 될것이다.

출처: DirectX 8.0-펜티엄4 에 최적화

물론 이에 그친 것은 아니다. MS 는 더불어 Windows 의 미디어 테크널리지를 펜티엄4 에 최적화시키겠다고 어나운스 하기도 했다. 벤치마크 상에서 살펴보았듯이 펜티엄4 의 미디어 재생능력은 상당히 뛰어난 것이 사실이다. 굳이 최적화시키지 않더라도 현재의 능력만으로도 충분히 만족스러운 영상 데이터 처리능력을 가지고 있다는 점이다. 하지만 MS 는 그 이상을 꿈꾸며 자사의 미디어 인코딩/디코딩 SW 최적화 작업에 몰두하기 시작했다.

현재 MS 가 잡지못한 두가지 미디어 포맷이 있는데, Real Player 와 Quicktime Player 가 바로 그것이다. 필자의 개인적인 예측으론, MS 는 이 두가지 포맷을 인터넷 시장에서 그 세력을 약화시키던지, 아니면 흡수하려는 전략으로 펜티엄4 최적화를 외치며, 작업에 열중하고 있는 것 같다는 느낌이 든다. 기본적으로 우수한 비디오 인코딩/디코딩 재생능력을 가진 펜티엄4 를 적극적으로 활용한다면, 결코 불가능한 일은 아니기 때문이다.

애플리케이션 및 게임 제작업체들 서서히 펜티엄4 지원사격에 동참하고 있다.

언뜻 눈에 띄는 것만 살펴보아도, PC 그래픽 사상 가장 아름다운 그래픽을 보여준다고 극찬을 받은 게임 세크리파이스 (Scarifice) 가 펜티엄4 에 최적화되어 이미 시장에 출시되었고(미국), 미디어 저작도구로 유명한 Viedo Studio 사의 Ulead 역시 펜티엄4 최적화 리스트에 포함되어 있음을 알수가 있다. 벡더 이미지 편집 프로그램으로 유명한 코럴사의 Corel Draw 역시 펜티엄4 에 최적화된 환경을 제공하겠다고 약속한 상태다. 결국 사무용 애플리케이션과 게임과 같은 엔터테인먼트용 S/W 의 흐름도 조심스럽게 펜티엄4 지원쪽으로 흘러가고 있는 것이다.

전반적으로는 펜티엄4 에 동승하는 분위기로 업계가 움직이고 있지만, 아직 안심하기는 이르다. 아직 펜티엄4 의 새로운 아키텍쳐의 효율성에 의문을 가지고 있는 개발자들도 상당수 있으며, 기존 애플리케이션에서의 성능향상이 펜티엄3 계열에 비해 크지 못한 경우도 찾아볼수 있어서, 사용자들의 반응이 다소 냉담한것도 사실이기 때문이다. 때문에 개발자들과 소비자들에게 펜티엄4 가 우수한 코어를 가지고 있다고 설득하는 작업은, 인텔에게 조금 까다로운 작업이 될 수도 있을 것이다. 과연 인텔은 어떤 작전으로 나올 것인가 ?

이창선
자료제공: PCBee (http://www.pcbee.co.kr)

 

ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT