네이티브 코드 (r1)

1. 개요

네이티브 코드는 컴퓨터의 중앙 처리 장치(CPU)를 직접 제어하는 데 사용되는 명령어 집합으로 구성된 컴퓨터 코드이다. 다른 이름으로는 기계어라고도 불린다. 기존의 이진 컴퓨터의 경우, 이 코드는 CPU가 실제로 읽고 해석하는 프로그램의 이진 표현이다[1].

네이티브 코드로 작성된 프로그램은 기계어 명령어들의 시퀀스로 구성되며, 필요에 따라 데이터가 혼합될 수 있다. 각각의 기계어 명령어는 CPU가 메모리에서 데이터를 로드하거나, 산술 논리 장치(ALU)에서 연산을 실행하거나, 프로그램의 흐름을 다른 명령어로 점프시키는 등 특정 작업을 수행하도록 지시한다. 이 코드는 CPU가 이해할 수 있는 가장 낮은 수준의 언어에 해당한다.

일반적으로 각 명령어 집합(ISA)을 가진 컴퓨터 아키텍처 제품군(예: x86, ARM)은 고유한 네이티브 코드 언어를 갖는다. 네이티브 코드는 엄격하게 숫자로 구성되어 있어 사람이 직접 읽고 작성하기는 매우 어렵다. 따라서 현대에는 고급 프로그래밍 언어로 프로그램을 작성한 후, 컴파일러를 통해 네이티브 코드로 번역하는 방식이 일반적으로 사용된다.

2. 명령어 집합

모든 CPU는 특정 작업을 수행하도록 제어하는 고유한 명령어 집합을 갖는다. 이 명령어 집합은 컴퓨터 아키텍처의 핵심을 이루며, 기계어는 이 집합에 정의된 명령어들의 시퀀스로 구성된다. 각 명령어는 CPU가 해독하고 실행할 수 있는 비트 패턴으로 표현된다.

명령어 집합의 설계는 명령어 형식에 따라 크게 달라진다. 모든 명령어의 길이가 고정된 RISC 방식이 있는가 하면, x86 아키텍처처럼 명령어 길이가 가변적인 CISC 방식도 있다. 또한 명령어 내의 비트 할당 방식, 즉 연산 코드와 피연산자를 표현하는 필드의 구성도 프로세서마다 다르다. 이러한 설계는 하드웨어의 디지털 논리 회로를 직접 제어해야 하는 요구사항과, 메모리 공간 효율성과 실행 속도 사이의 균형을 고려하여 결정된다.

하나의 프로세서 제품군 내에서도 명령어 집합은 발전하며, 새로운 명령어가 추가되거나 기능이 확장된다. 때로는 서로 다른 아키텍처의 명령어 집합을 하나의 프로세서가 지원하는 경우도 있다. 명령어 집합은 범용 명령어와 특수 명령어로 구분될 수 있으며, 특수 명령어는 해당 아키텍처의 고유한 하드웨어 기능을 활용하기 위해 설계된다.

3. 어셈블리어와의 관계

어셈블리어는 네이티브 코드(기계어)와 사람 사이의 다리 역할을 하는 저수준 프로그래밍 언어이다. 어셈블리어는 숫자로 구성된 기계어 명령어를 사람이 이해하기 쉬운 니모닉 코드로 대체하여 직접적인 일대일 매핑을 제공한다. 예를 들어, 특정 중앙 처리 장치(CPU)에서 레지스터 값을 감소시키는 기계어 명령어 '00000101'은 어셈블리어에서는 'DEC B'와 같은 기억하기 쉬운 형태로 표현된다.

어셈블리어는 기계어와 달리 메모리 주소나 레지스터를 숫자 값 대신 심볼릭 이름으로 참조할 수 있어 프로그래밍을 더욱 용이하게 한다. 이는 어셈블러라는 특수한 프로그램이 어셈블리어 소스 코드를 읽어 해당하는 기계어 명령어 시퀀스로 변환함으로써 가능해진다. 따라서 어셈블리어로 작성된 프로그램은 최종적으로 CPU가 직접 실행할 수 있는 네이티브 코드로 변환된다.

기계어를 직접 작성하는 것은 비트와 숫자 주소를 관리해야 하기 때문에 매우 번거롭고 오류가 발생하기 쉽다. 반면 어셈블리어는 이러한 복잡성을 줄여주면서도 하드웨어를 직접 제어해야 하는 장치 드라이버나 운영 체제 커널과 같은 시스템 소프트웨어 개발에 여전히 사용된다. 결국, 어셈블리어는 기계어의 가독성을 높인 표현 방식으로, 둘 사이에는 밀접한 대응 관계가 존재한다.

4. 마이크로코드와의 관계

일부 컴퓨터 아키텍처에서, 네이티브 코드 또는 기계어로 정의되는 명령어 집합은 더 기본적인 하위 계층인 마이크로코드에 의해 구현된다. 마이크로코드는 중앙 처리 장치 내부의 제어 장치를 구성하는 매우 낮은 수준의 하드웨어 제어 신호 시퀀스이다. 이는 서로 다른 내부 데이터 흐름과 마이크로아키텍처를 가진 컴퓨터 모델 라인이나 제품군 간에 동일한 기계어 인터페이스를 제공하기 위해 사용된다.

이러한 접근 방식의 주요 목적은 소프트웨어 이식성을 높이는 것이다. 예를 들어, IBM의 System/360 메인프레임 컴퓨터 제품군은 다양한 성능과 가격대의 모델을 출시했지만, 모두 동일한 기계어 명령어 집합을 공유했다. 이는 서로 다른 하드웨어 구현(예: 서로 다른 마이크로프로세서나 게이트 배열) 위에서 동일한 응용 프로그램과 운영 체제가 실행될 수 있도록 보장했다. 사용자나 프로그래머는 복잡한 하드웨어 차이를 알 필요 없이 동일한 기계어 프로그램을 실행할 수 있었다.

따라서 마이크로코드는 기계어와 실제 하드웨어 실행 사이의 추상화 계층 역할을 한다. 기계어 명령어 하나는 여러 개의 마이크로코드 명령어(마이크로옵) 시퀀스로 변환되어 실행된다. 이 설계는 복잡 명령어 집합 컴퓨터 아키텍처에서 흔히 발견된다. 반면, 감소 명령어 집합 컴퓨터 설계 철학을 따르는 많은 현대 마이크로프로세서는 하드와이어드 제어 방식을 채택하여 마이크로코드 없이 직접 기계어 명령어를 실행하기도 한다.

5. 바이트코드와의 관계

네이티브 코드는 일반적으로 바이트코드(p-코드라고도 함)와 구분된다. 바이트코드는 인터프리터에 의해 실행되거나 더 빠른 실행을 위해 네이티브 코드로 컴파일되는 중간 표현이다. 이는 가상 머신 위에서 동작하는 코드의 일반적인 형태로, 특정 하드웨어가 아닌 가상 머신의 명령어 집합을 따른다.

예외적으로 자바 프로세서와 같이 특정 바이트코드를 직접 네이티브 코드로 실행하도록 설계된 프로세서가 있다. 그러나 일반적인 경우, 자바 가상 머신(JVM)이나 공통 언어 런타임(CLR)과 같은 환경에서 바이트코드는 런타임 시점에 JIT 컴파일 방식을 통해 네이티브 코드로 변환되어 실행된다. 이는 플랫폼 독립성을 제공하는 동시에 네이티브 코드에 근접한 성능을 달성하기 위한 방법이다.

네이티브 코드와 어셈블리어는 특정 플랫폼에 종속적인 언어 기능이나 라이브러리를 참조할 때 종종 '네이티브 코드'라는 용어로 통칭된다. 이는 고급 프로그래밍 언어로 작성된 코드가 최종적으로 특정 CPU의 기계어로 변환되어 실행되는 최종 형태를 의미한다.

6. 메모리 저장

네이티브 코드는 중앙 처리 장치의 관점에서 주기억장치에 저장된다. CPU는 내부 프로그램 카운터가 가리키는 메모리 주소의 기계어 명령어를 순차적으로 읽어 실행한다. 성능 향상을 위해 자주 접근하는 명령어는 CPU 캐시에 유지되며, 현대 컴퓨터 구조에서는 명령어와 데이터를 위한 별도의 캐시를 갖는 경우도 많다.

운영 체제와 메모리 관리 장치는 메모리 페이지에 대한 실행 권한을 제어한다. 예를 들어, 유닉스 계열 시스템에서는 mprotect() 시스템 호출을, 마이크로소프트 윈도우에서는 VirtualProtect() API를 사용하여 특정 메모리 영역을 실행 가능하도록 설정할 수 있다. 실행 권한이 없는 페이지에서 기계어를 실행하려고 시도하면 일반적으로 세그멘테이션 오류나 접근 위반과 같은 아키텍처별 보호 오류가 발생한다.

프로세스의 관점에서, 실행 중인 네이티브 코드는 가상 주소 공간 내의 코드 세그먼트에 상주한다. 다중 작업 시스템에서 이 공간은 프로그램의 주 실행 코드와 공유 라이브러리를 포함한다. 다중 스레딩 환경에서는 한 프로세스의 여러 스레드가 동일한 코드 공간을 공유하여 문맥 교환 오버헤드를 줄인다. 데이터를 기계어로 취급하거나 기존 코드를 악용하는 기법은 일부 소프트웨어 보안 취약점의 근간이 되기도 한다.

7. 사람의 가독성

네이티브 코드는 CPU가 직접 해석하고 실행하는 이진 형태의 기계어로 구성된다. 이는 컴퓨터가 이해하는 가장 기본적인 언어 수준으로, 사람이 직접 읽고 이해하기에는 매우 난해하다. 기계어는 전기적 신호의 조합에 가깝기 때문에, 더글러스 호프스태터는 이를 DNA 분자의 원자 수준을 살펴보는 것에 비유하기도 했다.

그러나 사람이 기계어를 분석할 수 있도록 돕는 여러 도구와 방법이 존재한다. 가장 대표적인 방법은 역어셈블리이다. 어셈블리어는 각 기계어 명령에 일대일로 대응되는 니모닉을 제공하기 때문에, 역어셈블러를 사용하면 기계어를 비교적 읽기 쉬운 어셈블리어 소스 코드 형태로 변환하여 분석할 수 있다. 또한, 디버거와 함께 심볼 테이블이나 프로그램 데이터베이스 파일을 활용하면 변수명이나 함수명 같은 디버그 정보를 복원하여 가독성을 더욱 높일 수 있다.

특정 조건 하에서는 기계어를 고급 프로그래밍 언어 형태로도 복원하는 것이 가능하다. 역컴파일러를 사용하면 소스 코드의 난독화된 버전을 얻을 수 있다. 역사적으로 IBM 메인프레임 시스템의 SHARE 운영 체제는 SQUOZE라는 압축된 기계어 형식을 사용했으며, 현대의 z/OS 같은 시스템에서는 ADATA나 DWARF 같은 표준화된 디버그 정보 형식을 지원한다.

결론적으로, 네이티브 코드 자체는 사람이 읽기 어렵지만, 역어셈블리, 역컴파일, 디버그 심볼 활용 등 다양한 도구와 기법을 통해 그 내용을 분석하고 이해하는 것이 가능하다. 이는 소프트웨어 유지보수, 리버스 엔지니어링, 보안 분석 등 여러 분야에서 중요한 과정이다.

8. 관련 문서

9. 참고 자료

ko.wikipedia.org

네이티브 코드

정의	컴퓨터의 중앙 처리 장치(CPU)를 제어하는 데 사용되는 명령어 집합으로 구성된 컴퓨터 코드
다른 이름	기계어
표현 방식	이진 표현[?]
구성	기계어 명령어들의 시퀀스(데이터와 혼합될 수 있음)
주요 용도	CPU가 특정 작업을 수행하도록 제어
상세 정보
명령어 예시	메모리에서 워드를 CPU 레지스터로 로드 하나 이상의 레지스터 또는 메모리 위치에서 작업 수행
관련 개념	어셈블리어 마이크로코드 바이트코드
프로그램 실행 개념	코드 트랜슬레이션 컴파일러 인터프리터 가상 머신 런타임 시스템
저명한 런타임	안드로이드 런타임 (ART) 공통 언어 런타임 (CLR) 자바 가상 머신 (JVM) V8
저명한 컴파일러	GNU 컴파일러 모음 (GCC) LLVM 클랭