L2 캐시 (r1)

1. 개요

L2 캐시는 중앙 처리 장치(CPU)의 캐시 메모리 계층 구조에서 두 번째 단계에 위치하는 하드웨어 캐시이다. CPU에서 메인 메모리에서 데이터에 접근하는 평균 비용(시간 또는 에너지)을 줄이기 위해 사용된다. 프로세서 코어에 더 가깝게 위치한 더 작고 빠른 메모리인 L1 캐시의 바로 아래 단계에 위치하며, 자주 사용되는 메인 메모리 위치의 데이터 복사본을 저장하여 훨씬 느린 메인 메모리에 항상 접근할 필요가 없도록 한다.

일반적으로 L1 캐시보다는 크지만 접근 속도는 느리며, L3 캐시보다는 작고 빠른 특성을 가진다. 최신 CPU에서 캐시는 일반적으로 칩 면적에서 가장 큰 부분을 차지한다. L2 캐시는 주로 단일 비트를 저장하는 데 여러 트랜지스터를 필요로 하는 SRAM으로 구현되지만, 일부 설계에서는 더 높은 밀도를 제공하는 eDRAM을 사용하기도 한다.

멀티코어 프로세서에서 L2 캐시의 설계 방식은 다양하다. 각 코어가 전용 L2 캐시를 가지는 방식과 여러 코어가 하나의 L2 캐시를 공유하는 방식이 있다. 이는 성능, 전력 소비, 칩 면적 간의 트레이드오프를 고려하여 결정된다. L2 캐시는 L1 캐시와 달리 일반적으로 명령어와 데이터를 구분하지 않는 통합형 캐시로 설계되는 경우가 많다.

2. 역사

CPU 캐시의 개념은 컴퓨터 시스템의 메인 메모리와 프로세서 간의 속도 차이가 커짐에 따라 발전해왔다. 초기 컴퓨터 시스템에서는 메인 메모리 접근 속도가 프로세서 속도와 크게 차이나지 않았으나, 1980년대 이후 프로세서의 발전 속도가 메모리보다 훨씬 빨라지면서 성능 병목 현상이 두드러지게 되었다. 이를 해결하기 위해 도입된 것이 작고 빠른 캐시 메모리이다.

초기 CPU 캐시는 단일 수준으로 구성되었으며, 명령어와 데이터를 구분하지 않았다. 최초의 CPU 캐시 사례로는 1960년대의 아틀라스 2와 IBM 시스템/360 모델 85가 있다. 명령어 캐시와 데이터 캐시로 분리된 L1 캐시는 1976년 IBM 801 CPU에서 처음 등장했으며, 1980년대 후반에 주류가 되었다. 한편, L2 캐시는 일반적으로 분할되지 않으며, 더 크고 느린 캐시로써 이미 분할된 L1 캐시의 공통 저장소 역할을 한다.

멀티코어 프로세서의 등장과 함께 캐시 계층 구조는 더욱 복잡해졌다. 각 코어는 전용 L1 캐시를 가지며, L2 캐시는 코어 간에 공유되거나 전용으로 구성될 수 있다. 더 큰 L3 캐시나 드물게 L4 캐시가 추가되어 여러 코어가 공유하는 대형 캐시 풀을 형성하기도 한다. 캐시 크기는 역사적으로 2의 제곱수(KiB)로 정해지는 경향이 있었으나, 용량이 커지면서 3 MiB와 같은 비전통적인 크기도 등장했다.

3. 구조와 작동 원리

3.1. 캐시 계층에서의 위치

L2 캐시는 CPU 캐시 계층 구조에서 L1 캐시와 L3 캐시 사이에 위치하는 중간 단계의 캐시이다. L1 캐시는 각 CPU 코어에 가장 가까이 위치하여 최저의 지연 시간을 제공하지만, 크기가 작고 설계 복잡도가 높다는 한계가 있다. 반면 L2 캐시는 일반적으로 L1 캐시보다 더 크고 느리지만, 메인 메모리에 비해서는 여전히 매우 빠른 접근 속도를 제공한다. 이는 L1 캐시에서 발생하는 캐시 미스를 처리하고, 메인 메모리 접근 빈도를 줄여 전체 시스템 성능을 향상시키는 역할을 한다.

멀티코어 프로세서에서 L2 캐시의 구성 방식은 다양하다. 일부 설계에서는 각 CPU 코어가 전용 L2 캐시를 가지기도 하고, 다른 설계에서는 두 개의 코어가 하나의 L2 캐시를 공유하기도 한다. 더 큰 규모의 프로세서에서는 모든 코어가 공유하는 대용량 L3 캐시가 존재하며, 이 경우 L2 캐시는 L1 캐시와 L3 캐시 사이의 중간 버퍼 역할을 한다. 이러한 계층적 배치는 데이터의 지역성을 효율적으로 활용하면서도 칩 면적과 전력 소비를 절충하는 데 목적이 있다.

L2 캐시의 물리적 구현 위치도 중요하다. 초기에는 마더보드에 별도 칩으로 존재했으나, 현대 마이크로프로세서에서는 대부분 프로세서 다이 내부에 통합되어 있다. 이를 통해 CPU 코어와의 통신 경로가 짧아져 대역폭이 증가하고 지연 시간이 줄어든다. L2 캐시는 일반적으로 L1 캐시와 달리 명령어와 데이터를 구분하지 않는 통합형 구조를 가지며, SRAM 셀로 구현되어 빠른 동작 속도를 보장한다.

3.2. 연관성 (Associativity)

연관성은 캐시 메모리가 주 기억 장치의 특정 위치에 있는 데이터를 캐시 내 어디에 저장할 수 있는지를 결정하는 규칙이다. 이는 캐시의 설계와 성능에 직접적인 영향을 미치는 핵심적인 특성 중 하나이다. 연관성의 정도에 따라 캐시는 크게 직접 매핑 캐시, 집합 연관 캐시, 완전 연관 캐시로 분류된다.

직접 매핑 캐시는 주 기억 장치의 각 블록이 캐시 내 오직 하나의 특정 위치에만 매핑될 수 있는 가장 단순한 형태이다. 이 방식은 구현이 간단하고 접근 속도가 빠르다는 장점이 있지만, 서로 다른 메모리 주소가 동일한 캐시 위치에 반복적으로 매핑될 경우 충돌 미스가 빈번히 발생하여 성능이 저하될 수 있다. 반면, 완전 연관 캐시는 메모리 블록이 캐시 내 어느 위치든 자유롭게 저장될 수 있다. 이는 충돌 미스를 거의 제거할 수 있지만, 데이터를 찾기 위해 캐시의 모든 엔트리를 병렬로 검색해야 하므로 하드웨어 복잡도와 전력 소비가 크게 증가하며, 대규모 캐시에는 실용적이지 않다.

대부분의 현대 L2 캐시는 이 두 극단 사이의 절충안인 집합 연관 캐시 방식을 채택한다. N-방향 집합 연관 캐시에서는 캐시가 여러 개의 '집합'으로 나뉘며, 각 집합은 N개의 '웨이'를 가진다. 메모리 주소는 특정 집합으로 매핑되지만, 그 집합 내의 N개 웨이 중 어느 곳에나 데이터를 저장할 수 있다. 예를 들어, 4-방향 집합 연관 캐시는 각 메모리 블록이 캐시 내 4개의 가능한 위치 중 하나에 저장될 수 있음을 의미한다. 이 방식은 직접 매핑에 비해 충돌 미스를 현저히 줄이면서도 완전 연관 방식보다 훨씬 간단한 하드웨어로 구현할 수 있다. 일반적으로 연관성을 높이면(예: 2-방향에서 4-방향으로) 캐시 미스율이 감소하지만, 검색해야 할 웨이의 수가 증가하여 접근 지연 시간과 전력 소비가 약간 증가하는 트레이드오프가 존재한다.

3.3. 쓰기 정책

쓰기 정책은 프로세서가 캐시 메모리에 데이터를 기록할 때, 그 변경 사항을 언제 주기억장치에 반영할지를 결정하는 규칙이다. 이 정책은 시스템의 성능과 데이터 일관성에 직접적인 영향을 미친다. 주로 쓰기 관통 방식과 쓰기 지연 방식으로 구분된다.

쓰기 관통 방식에서는 데이터가 캐시에 기록될 때마다 동시에 주기억장치에도 즉시 기록된다. 이 방식은 캐시와 주기억장치의 데이터가 항상 일치하도록 보장하여 데이터 일관성을 유지하기 쉽다는 장점이 있다. 그러나 매번의 쓰기 동작이 느린 주기억장치 접근을 수반하기 때문에, 쓰기 작업의 대기 시간이 길어져 전반적인 성능에 부정적인 영향을 줄 수 있다.

반면, 쓰기 지연 방식(또는 복사-백 방식)에서는 데이터가 캐시에만 먼저 기록되고, 해당 캐시 라인이 교체되거나 명시적으로 비워질 때까지 주기억장치에의 쓰기를 지연시킨다. 이때 변경된 캐시 라인은 '더티' 상태로 표시된다. 이 방식은 빈번한 쓰기 작업을 캐시 내에서 처리함으로써 주기억장치 접근 횟수를 크게 줄여 성능을 향상시킬 수 있다. 그러나 여러 프로세서나 DMA 장치가 같은 메모리 영역에 접근하는 다중 처리 시스템에서는 캐시 일관성 프로토콜이 필수적으로 요구된다.

두 정책 사이의 절충안도 존재한다. 예를 들어, 쓰기 버퍼를 도입하여 쓰기 관통 방식을 사용하되, 여러 쓰기 명령을 버퍼에 모아 한꺼번에 처리함으로써 버스 활용 효율을 높일 수 있다. 최신 멀티코어 프로세서 시스템에서는 성능 최적화와 데이터 일관성 유지 사이의 균형을 맞추기 위해 이러한 쓰기 정책들이 복합적으로 적용된다.

3.4. 교체 정책

캐시 미스가 발생하여 새로운 데이터를 캐시 라인에 로드해야 할 때, 기존에 저장된 데이터 중 어떤 것을 제거할지 결정하는 규칙을 교체 정책이라고 한다. 이 정책의 목표는 향후 접근 가능성이 가장 낮은 데이터를 선별하여 제거함으로써 캐시 적중률을 최대화하는 것이다. 미래의 접근 패턴을 정확히 예측하는 것은 불가능하기 때문에, 다양한 휴리스틱 기반의 알고리즘이 개발되어 사용된다.

가장 널리 알려진 교체 정책은 LRU이다. 이 방식은 가장 오랫동안 사용되지 않은 캐시 라인을 교체 대상으로 선정한다. 시간적 지역성의 원리에 기반하여, 최근에 사용된 데이터는 가까운 미래에 다시 사용될 가능성이 높다고 가정하기 때문이다. LRU는 구현 복잡도가 비교적 높지만 일반적으로 좋은 성능을 보인다. 그 외에도 무작위로 선정하는 랜덤 교체 정책, 가장 오래 전에 로드된 데이터를 우선 제거하는 FIFO 등 다양한 알고리즘이 존재하며, 각각 장단점을 가지고 있다.

L2 캐시는 L1 캐시보다 크기가 훨씬 크고 연관성도 더 높은 경우가 많다. 따라서 L2 캐시의 교체 정책은 설계 시 고려해야 할 변수가 더 많으며, 하드웨어 구현 복잡도와 성능 간의 절충이 중요해진다. 많은 현대 프로세서는 예측 정확도와 구현 비용을 고려하여 의사 LRU 같은 변형 알고리즘을 채택하기도 한다. 최적의 교체 정책은 워크로드의 특성에 크게 의존하므로, 고정된 정책 대신 접근 패턴을 실시간으로 분석하여 동적으로 전략을 변경하는 적응형 교체 정책에 대한 연구도 진행되고 있다.

4. 성능과 특성

4.1. 지연 시간 (Latency)과 대역폭

L2 캐시의 성능은 주로 지연 시간과 대역폭이라는 두 가지 핵심 요소로 평가된다. 지연 시간은 CPU가 데이터를 요청한 시점부터 실제로 그 데이터를 받아 사용할 수 있을 때까지 걸리는 시간을 의미한다. L2 캐시는 L1 캐시보다는 느리지만, 메인 메모리(주 기억 장치)에 비하면 훨씬 빠른 접근 속도를 제공한다. 이 지연 시간의 감소가 캐시가 존재하는 주요 이유이다. L2 캐시의 지연 시간은 일반적으로 L1 캐시의 몇 배에 달하지만, 메인 메모리의 접근 시간보다는 수십 배에서 수백 배 빠르다.

대역폭은 캐시가 단위 시간당 처리할 수 있는 데이터의 양을 나타낸다. L2 캐시는 L1 캐시보다 일반적으로 더 큰 용량을 가지며, CPU 코어와의 연결 경로도 다르게 설계된다. 이로 인해 L1 캐시만큼 낮은 지연 시간을 제공하지는 못하지만, 한 번에 더 많은 데이터를 전송할 수 있는 높은 대역폭을 가질 수 있다. 특히 멀티코어 프로세서에서 여러 코어가 공유하는 L2 캐시의 경우, 데이터 공유 효율을 높이기 위해 대역폭 설계가 중요해진다.

성능 최적화 관점에서, L2 캐시의 설계는 지연 시간과 대역폭, 그리고 캐시 크기 사이의 균형을 찾는 과정이다. 지연 시간을 줄이려면 캐시를 더 작고 빠르게 만들어야 하지만, 이는 캐시 미스가 증가할 위험이 있다. 반대로 대역폭과 적중률을 높이기 위해 캐시를 크게 만들면 지연 시간이 증가한다. 따라서 설계자는 워크로드(작업 부하)의 일반적인 특성을 분석하여 가장 효율적인 지점을 찾아낸다.

이러한 특성은 캐시 계층 구조 전체의 성능에 직접적인 영향을 미친다. L2 캐시에서 데이터를 찾지 못하는 캐시 미스가 발생하면, 훨씬 느린 L3 캐시나 메인 메모리로 접근해야 하므로 전체 시스템 성능이 급격히 하락할 수 있다. 따라서 L2 캐시의 효율적인 작동은 프로세서의 전반적인 처리 속도를 결정하는 핵심 요소 중 하나이다.

4.2. 캐시 미스 (Cache Miss)

캐시 미스는 프로세서가 요청한 데이터나 명령어가 캐시 메모리에 존재하지 않아, 속도가 훨씬 느린 주 메모리로 접근해야 하는 상황을 말한다. 캐시 미스가 발생하면 데이터를 가져오는 데 긴 지연 시간이 소요되어 전체 시스템 성능이 저하된다.

캐시 미스는 발생 원인에 따라 강제 미스, 용량 미스, 충돌 미스로 구분된다. 강제 미스는 특정 데이터가 처음으로 접근될 때 발생하며, 용량 미스는 작업 세트가 캐시 크기보다 커서 발생한다. 충돌 미스는 캐시의 연관 매핑 방식에서 서로 다른 데이터가 동일한 캐시 라인에 매핑되어 발생한다.

캐시 미스는 읽기 미스와 쓰기 미스로도 구분할 수 있다. 명령어 캐시에서 발생하는 읽기 미스는 파이프라인이 정지되는 가장 큰 지연을 유발한다. 데이터 캐시의 읽기 미스는 의존성이 없는 명령어를 계속 실행할 수 있어 상대적으로 지연이 적다. 쓰기 미스는 쓰기 버퍼에 큐잉될 수 있어 지연 시간이 가장 짧은 편이다.

4.3. 크기와 공유 방식

L2 캐시의 크기는 일반적으로 수백 킬로바이트에서 수 메가바이트 사이로, L1 캐시보다 크지만 L3 캐시보다는 작다. 이 크기는 캐시 적중률과 시스템의 전체적인 성능에 직접적인 영향을 미친다. 더 큰 L2 캐시는 더 많은 데이터를 저장할 수 있어 메인 메모리로의 접근 빈도를 줄이고, 이는 특히 데이터 집약적인 애플리케이션에서 성능 향상으로 이어진다. 그러나 크기를 무작정 늘리는 것은 칩 면적과 전력 소비를 증가시키는 비용을 수반하므로, 설계 시 균형이 중요하다.

멀티코어 프로세서에서 L2 캐시의 공유 방식은 설계에 따라 다양하다. 일부 설계에서는 각 프로세서 코어가 전용(private) L2 캐시를 가지며, 이는 해당 코어의 데이터에 대한 빠른 접근을 보장한다. 다른 설계에서는 두 개 이상의 코어가 하나의 L2 캐시를 공유(shared)한다. 공유 캐시는 코어 간에 데이터를 효율적으로 교환할 수 있어 캐시 일관성 유지 오버헤드를 줄이고, 사용되지 않는 캐시 공간을 다른 코어가 활용할 수 있게 하여 전체 캐시 활용도를 높인다. 인텔의 스마트 캐시와 같은 기술은 이러한 동적 공유를 구현한 예시이다.

L2 캐시의 크기와 공유 정책은 멀티스레딩 성능과 밀접한 관련이 있다. 스레드들이 많은 데이터를 공유할 경우, 공유 L2 캐시는 데이터 중복을 피하고 통신 지연을 줄이는 데 유리하다. 반면, 스레드들이 독립적으로 작업할 때는 전용 캐시가 충돌 미스를 줄일 수 있다. 또한, 캐시 계층 구조에서 L2 캐시는 L1 캐시의 희생자 캐시 역할을 하거나, 포괄적 또는 배타적 정책에 따라 L1과 L3 캐시 사이에서 데이터를 관리한다. 이러한 설계 선택은 최종 사용자가 경험하는 애플리케이션 성능과 시스템 반응성에 중요한 영향을 미친다.

5. 다른 캐시와의 관계

5.1. L1 캐시와의 비교

L1 캐시는 CPU 코어와 가장 가까운 위치에 있으며, 가장 빠른 접근 속도를 제공한다. 일반적으로 명령어 캐시(L1i)와 데이터 캐시(L1d)로 분리되어 있으며, 각각의 크기는 수십 킬로바이트 수준으로 비교적 작다. 이는 지연 시간을 최소화하기 위한 설계로, 코어가 자주 사용하는 데이터나 명령어를 즉시 사용할 수 있도록 한다. 반면, L2 캐시는 L1 캐시보다 코어에서 물리적으로 더 멀리 위치하며, 접근 속도는 L1보다 느리지만 그 크기는 훨씬 더 크다. L2 캐시는 통합형으로 설계되는 경우가 많아 명령어와 데이터를 함께 저장한다.

L1 캐시의 주요 역할은 코어의 즉각적인 데이터 요구를 처리하는 것이며, 그 크기가 제한적인 만큼 캐시 미스가 발생하면 바로 L2 캐시를 확인한다. L2 캐시는 L1 캐시와 메인 메모리 사이의 버퍼 역할을 하여, L1에서 찾지 못한 데이터를 제공함으로써 메인 메모리 접근 빈도를 줄인다. 이는 메모리 계층 구조에서 평균 데이터 접근 시간을 단축하는 핵심 메커니즘이다.

성능 측면에서 L1 캐시는 낮은 지연 시간이 최우선이므로, SRAM 셀 설계와 코어 근접 배치에 많은 설계 비용이 든다. L2 캐시는 상대적으로 더 큰 용량을 확보하는 데 중점을 두어, L1에 비해 더 많은 데이터를 저장할 수 있지만, 이로 인해 접근 속도는 희생된다. 현대 멀티코어 프로세서에서는 각 코어가 전용 L1 캐시를 가지는 반면, L2 캐시는 두 개의 코어가 공유하거나 모든 코어가 하나의 큰 L2 캐시를 공유하는 방식으로 설계되기도 한다.

5.2. L3 캐시와의 비교

L3 캐시는 CPU 캐시 계층 구조에서 L2 캐시의 다음 단계에 위치하는 캐시이다. L3 캐시는 일반적으로 L2 캐시보다 크기가 훨씬 크지만 접근 속도는 더 느리다. 그 주요 목적은 L2 캐시에서 발생한 캐시 미스를 처리하고, 메인 메모리에 대한 접근 빈도를 더욱 줄이는 것이다. 멀티코어 프로세서가 보편화되면서, L3 캐시는 여러 프로세서 코어가 공유하는 형태로 설계되는 경우가 많다.

L3 캐시와 L2 캐시의 가장 큰 차이는 공유 방식과 물리적 위치에 있다. L2 캐시는 전통적으로 각 CPU 코어에 전용으로 할당되거나 코어 쌍이 공유하는 경우가 많았지만, L3 캐시는 칩 상의 모든 코어가 공통으로 사용하는 풀(pool) 형태의 캐시이다. 이는 서로 다른 코어가 처리하는 작업 간의 데이터 공유를 효율적으로 하고, 전체 시스템의 캐시 활용도를 높이는 데 기여한다. 또한 L3 캐시는 온다이에 통합되거나, 별도의 다이에 구현되기도 하며, 최근 설계에서는 eDRAM을 사용하기도 한다.

성능 측면에서 L3 캐시는 L2 캐시와 메인 메모리 사이의 또 다른 버퍼 역할을 한다. L2 캐시에서 데이터를 찾지 못했을 때(L2 미스), CPU는 먼저 L3 캐시를 확인한다. L3 캐시에서 데이터를 찾으면(L3 히트), 메인 메모리 접근에 비해 훨씬 짧은 지연 시간으로 데이터를 얻을 수 있다. 이는 특히 대용량 데이터를 처리하는 서버나 워크스테이션에서 전체 처리 성능을 크게 향상시킨다. 그러나 L3 캐시도 데이터를 찾지 못하면 최종적으로 메인 메모리에 접근해야 하므로, 캐시 계층 설계에서 L3의 크기와 연관성은 중요한 고려 사항이다.

6. 구현 및 설계

6.1. 물리적 위치 (온다이/오프다이)

L2 캐시는 프로세서 다이 내에 구현되는지, 아니면 별도의 칩으로 구현되는지에 따라 그 물리적 위치와 특성이 달라진다. 초기에는 L2 캐시가 마더보드에 별도의 SRAM 칩으로 장착되는 오프다이(off-die) 방식이 일반적이었다. 이는 프로세서 코어와 물리적으로 분리되어 있어 상대적으로 느린 접근 속도를 가지지만, 설계와 제조가 비교적 자유로워 큰 용량을 구현하기 쉬운 장점이 있었다.

현대의 대부분의 프로세서에서는 성능 향상을 위해 L2 캐시를 프로세서 코어와 동일한 실리콘 다이 안에 통합하는 온다이(on-die) 방식을 채택하고 있다. 이는 CPU와 캐시 간의 데이터 경로를 극단적으로 짧게 만들어 지연 시간을 획기적으로 줄이고 대역폭을 크게 향상시킨다. 특히 멀티코어 프로세서에서는 각 코어에 전용 L2 캐시를 두거나, 여러 코어가 하나의 큰 L2 캐시를 공유하는 설계가 혼용된다.

물리적 위치에 따른 이분법은 점차 희미해지고 있으며, 고성능 서버용 프로세서나 일부 설계에서는 프로세서 패키지 내에 별도의 다이로 L3 캐시나 대용량 eDRAM을 집적하는 '온패키지(on-package)' 방식도 등장했다. 이는 칩 면적과 비용, 열 설계의 제약을 극복하면서도 메모리 계층 구조의 효율을 높이는 혁신적인 접근법이다. 결국 L2 캐시의 물리적 구현은 당시의 반도체 공정 기술, 성능 목표, 그리고 전력 및 비용 제약 사이의 절충을 통해 진화해 왔다.

6.2. 멀티코어 프로세서에서의 설계

멀티코어 프로세서에서 L2 캐시의 설계는 성능과 효율성에 중대한 영향을 미친다. 설계 방식은 크게 전용(Private) 방식과 공유(Shared) 방식으로 나뉜다. 전용 L2 캐시는 각 프로세서 코어가 독립적인 캐시를 소유하는 방식이다. 이는 캐시 접근 지연 시간이 짧고, 캐시 일관성 프로토콜이 비교적 단순하다는 장점이 있다. 그러나 각 코어가 사용할 수 있는 캐시 용량이 제한적이며, 작업 부하에 따라 코어 간 캐시 사용률이 불균형해질 수 있다.

반면, 공유 L2 캐시는 여러 코어가 하나의 큰 캐시 풀을 함께 사용하는 방식이다. 이는 작업 부하가 변동할 때 유연하게 대응할 수 있으며, 단일 코어가 필요 시 전체 캐시 용량을 활용할 수 있어 캐시 미스율을 낮추는 데 유리하다. 또한 데이터를 공유하는 스레드나 프로세스 간에 데이터 중복을 줄여 전체적인 캐시 효율을 높일 수 있다. 그러나 여러 코어가 동시에 접근할 때 경합이 발생할 수 있으며, 일관성을 유지하기 위한 하드웨어 설계가 더 복잡해진다.

현대 프로세서는 종종 하이브리드 방식을 채택하여 두 가지 접근법의 장점을 결합한다. 예를 들어, 각 코어 또는 코어 클러스터에는 작은 전용 L2 캐시를 두고, 모든 코어가 공유하는 더 큰 L3 캐시를 상위 계층에 배치하는 방식이다. L2 캐시는 주로 해당 코어의 로컬 데이터를 빠르게 서비스하는 반면, 코어 간에 공유되거나 용량이 큰 데이터는 L3 캐시에서 처리된다. 이러한 계층적 설계는 지연 시간과 캐시 적중률 사이의 균형을 최적화한다. 또한, 인텔의 스마트 캐시나 AMD의 통합 캐시 아키텍처와 같이, 공유 캐시를 여러 조각으로 나누어 독립적인 메모리 컨트롤러와 연결함으로써 병렬 접근 대역폭을 높이는 설계도 일반적이다.

7. 관련 문서

8. 참고 자료

ko.wikipedia.org