Wayback Machine
1. 개요
1. 개요
웨이백 머신은 인터넷 아카이브가 운영하는 디지털 타임캡슐 서비스이다. 브루스터 케일이 설립한 이 서비스는 1996년 5월 10일에 설립되었으며, 2001년 10월 24일에 공개되었다. 전 세계의 웹사이트를 크롤링하여 날짜와 시간대별로 저장하고 보존함으로써, 사용자가 웹 페이지의 과거 모습을 다시 볼 수 있게 해준다.
이 서비스는 인터넷 상의 정보가 쉽게 사라지는 현상, 즉 링크 부패를 막고 디지털 문화유산을 보존하는 데 중요한 역할을 한다. 웨이백 머신은 비영리 기관이 운영하며 광고가 없고, 회원가입은 선택 사항이다. 서비스의 백엔드는 C언어와 Perl로 작성되었다.
현재 수천억 개 이상의 웹 페이지가 아카이브되어 있으며, 이는 도서관이나 박물관이 문서와 유물을 보존하는 것과 유사한 방식으로 디지털 정보를 보관하는 기능을 한다. 그러나 이 같은 포괄적인 아카이빙 활동은 저작권 및 잊힐 권리와 관련된 논란을 불러일으키기도 한다.
2. 상세
2. 상세
2.1. 아카이브 공개 시기
2.1. 아카이브 공개 시기
웨이백 머신에 저장된 웹 페이지는 즉시 공개되지 않는다. 일반적으로 자동 크롤링을 통해 수집된 데이터는 저장된 후 약 6개월에서 12개월의 지연 기간을 거쳐 공개된다. 이는 인터넷 아카이브의 정책으로, 아카이브 과정에서 발생할 수 있는 기술적 문제를 점검하고, 사이트 소유자의 삭제 요청을 처리할 수 있는 시간을 확보하기 위함이다. 그러나 모든 사이트가 동일한 주기로 공개되는 것은 아니다. 일부 인기 있는 사이트나 자주 변경되는 사이트는 더 짧은 간격으로 아카이브되어 빠르게 공개될 수 있다.
사용자가 직접 '지금 페이지 저장(Save Page Now)' 기능을 통해 요청한 아카이브의 경우, 처리 완료 후 비교적 빠르게 공개된다. 하지만 이 경우에도 공개까지 수 분에서 수 시간이 소요될 수 있으며, 요청한 사이트의 규모나 복잡도에 따라 시간이 달라진다. 웨이백 머신의 공식 공개일은 2001년 10월 24일이지만, 그 이전인 1996년 5월 10일 설립 이후부터 크롤링을 통한 데이터 수집이 시작되었으며, 초기 수집 자료들은 이 정책에 따라 단계적으로 공개되었다.
2.2. 아카이브 요청 방법
2.2. 아카이브 요청 방법
사용자가 특정 웹 페이지를 아카이브하고 싶을 때는 웨이백 머신의 공식 웹사이트를 이용해 수동으로 요청할 수 있다. https://web.archive.org 또는 https://archive.org/web/에 접속하여 메인 페이지에 표시된 "Save Page Now" 입력창에 아카이브를 원하는 페이지의 URL을 입력하면 된다. 이 요청이 성공하면 해당 시점의 웹 페이지 스냅샷이 생성되어, 이후 웨이백 머신의 데이터베이스에 저장된다.
보다 편리하게 이용하기 위해 인터넷 아카이브는 공식 크롬 확장 프로그램을 제공한다. 이 확장 프로그램을 설치하면 방문하는 사이트마다 자동으로 또는 손쉽게 수동으로 아카이브 요청을 할 수 있다. 또한, API를 통해 대량의 아카이브 요청을 자동화하는 방법도 존재한다.
그러나 모든 요청이 성공하는 것은 아니다. robots.txt 파일로 크롤링을 금지한 사이트, 로그인이 필요한 회원제 사이트, 클라우드플레어와 같은 방화벽으로 보호된 사이트는 아카이브되지 않을 수 있다. 또한, 같은 도메인에 대한 요청은 하루에 횟수 제한이 있으며, 과도한 요청 시 일정 시간 동안 제한될 수 있다.
2.3. 크롤링 방식
2.3. 크롤링 방식
웨이백 머신은 인터넷 아카이브가 운영하는 자동화된 웹 크롤러를 통해 방대한 양의 웹 페이지를 수집한다. 이 크롤러는 전 세계의 공개된 웹사이트를 지속적으로 탐색하며, 발견된 페이지의 HTML, 이미지, 스크립트 등 대부분의 콘텐츠를 저장한다. 크롤링의 빈도는 사이트의 규모와 인기도에 따라 다르며, 일부 주요 사이트는 수시로, 다른 사이트는 몇 달에 한 번씩 아카이브될 수 있다.
크롤링 과정은 robots.txt 파일에 의해 제한을 받는다. 웹사이트 관리자가 해당 파일에 크롤러의 접근을 금지하면, 웨이백 머신은 일반적으로 그 지시를 따르며 해당 페이지나 사이트를 아카이브하지 않는다. 이는 사생활 보호와 저작권 존중의 측면에서 중요한 기능이다. 또한, 로그인이 필요한 회원제 사이트나 클라우드플레어와 같은 강력한 방화벽 뒤에 있는 사이트는 크롤링이 사실상 불가능한 대표적인 사례이다.
수집된 데이터는 인터넷 아카이브의 데이터 센터에 저장되며, 일반적으로 크롤링된 시점으로부터 6개월에서 12개월 후에 공개된다. 이 지연 기간은 기술적 처리와 법적 검토를 위한 것이다. 사용자는 공식 웹사이트를 통해 특정 URL의 아카이브를 직접 요청할 수도 있으며, 이 경우 상대적으로 빠른 시일 내에 저장이 이루어진다.
2.4. URL 접두어 기능
2.4. URL 접두어 기능
웨이백 머신은 저장된 웹 페이지를 조회할 때 다양한 URL 접두어를 활용하여 특별한 기능을 제공한다. 이 접두어를 사용하면 페이지의 표시 방식이나 제공되는 정보를 변경할 수 있다.
가장 대표적인 기능은 id_ 접두어이다. 웨이백 머신에 저장된 페이지의 HTML 소스 코드는 현대 웹 브라우저에서 원활히 표시되도록 자동으로 변형되는 경우가 있다. 이때 URL의 날짜 부분 앞에 id_를 붙이면, 변형되지 않은 원본 소스 코드를 그대로 확인할 수 있다. 이는 웹 개발자나 연구자가 당시의 원본 코드를 분석하는 데 유용하지만, 페이지 레이아웃이 깨져 보일 수 있다는 단점이 있다. 반면, fw_ 접두어를 사용하면 페이지 상단에 표시되는 웨이백 머신의 툴바가 제거되어, 마치 원본 사이트를 보는 것처럼 깔끔하게 페이지 내용만 볼 수 있다.
이 외에도 js_ 접두어는 페이지의 자바스크립트 실행을 시도하며, cs_ 접두어는 CSS 스타일시트를 강제로 적용하는 등의 옵션이 존재한다. 이러한 접두어 기능은 사용자가 단순히 과거 페이지를 보는 것을 넘어, 웹 아카이브의 데이터를 다양한 각도에서 검토하고 활용할 수 있는 유연성을 제공한다.
3. 기능
3. 기능
3.1. 웹 페이지 과거 모습 조회
3.1. 웹 페이지 과거 모습 조회
웨이백 머신의 가장 핵심적인 기능은 웹 페이지의 과거 모습을 조회하는 것이다. 사용자는 웨이백 머신의 웹사이트에 접속하여 특정 URL을 입력하면, 해당 사이트가 인터넷 아카이브에 의해 크롤링되어 저장된 날짜별 스냅샷 목록을 확인할 수 있다. 이 목록에서 원하는 날짜와 시간대를 선택하면, 해당 시점의 웹 페이지가 원래의 레이아웃, 이미지, 텍스트와 함께 재현된다. 이는 링크 부패로 인해 사라진 정보를 찾거나, 웹사이트의 디자인 변화를 추적하는 데 유용하게 활용된다.
일부 웹 페이지는 자바스크립트나 플래시와 같은 오래된 기술로 구성되어 있어 현대적인 웹 브라우저에서 제대로 표시되지 않을 수 있다. 웨이백 머신은 이러한 콘텐츠의 접근성을 높이기 위해 러플 에뮬레이터를 내장하여 일부 어도비 플래시 콘텐츠를 실행할 수 있도록 지원한다. 또한, 저장된 페이지의 원본 HTML 소스 코드를 확인하고자 할 때는 URL에 특정 접두어를 추가하는 기능을 제공한다.
3.2. API 제공
3.2. API 제공
웨이백 머신은 개발자와 연구자들이 아카이브된 데이터에 프로그래밍 방식으로 접근할 수 있도록 API를 제공한다. 이 API를 통해 특정 URL의 아카이브 기록 목록을 조회하거나, 특정 시점에 저장된 스냅샷의 정보를 가져올 수 있다. 또한 Save Page Now 기능을 API를 통해 자동으로 요청하여 새로운 웹 페이지를 즉시 아카이브에 저장하도록 할 수도 있다.
이 API는 인터넷 아카이브의 방대한 디지털 기록 보관소를 활용한 서드파티 애플리케이션 개발을 가능하게 한다. 예를 들어, 학술 연구나 디지털 보존 프로젝트에서 링크가 끊긴 웹 자료를 자동으로 확인하고 복원하는 도구를 만드는 데 활용될 수 있다. API 사용에는 일반적으로 무료로 접근할 수 있으나, 과도한 요청을 방지하기 위해 일정한 사용 제한이 있을 수 있다.
3.3. 삭제된 파일 복원
3.3. 삭제된 파일 복원
웨이백 머신은 인터넷 상에서 삭제된 파일을 복원하는 데 유용한 기능을 제공한다. 사용자가 다운로드하고 싶은 파일이 원본 웹사이트에서 삭제된 경우, 해당 파일의 URL을 웨이백 머신에 입력해보면 과거에 크롤링되어 저장된 버전을 찾을 수 있는 경우가 많다. 이는 소프트웨어, 문서, 멀티미디어 파일 등 다양한 형식의 데이터에 적용된다.
특히 오래된 소프트웨어나 프로그램을 찾을 때, 공식 배포처가 사라진 경우 웨이백 머신의 아카이브를 통해 파일을 복원할 수 있다. 또한, 악성코드가 포함된 것으로 알려진 역사적인 웹페이지를 안전하게 조사하는 용도로도 활용된다. 최근에는 어도비 플래시로 제작된 콘텐츠를 Ruffle 에뮬레이터를 통해 재생할 수 있도록 지원하여, 더 많은 삭제된 디지털 콘텐츠의 복원과 접근을 가능하게 한다.
4. 아카이빙 관련
4. 아카이빙 관련
4.1. robots.txt 영향
4.1. robots.txt 영향
웨이백 머신은 웹 크롤링을 통해 웹사이트를 자동으로 수집하는데, 이 과정에서 웹사이트 관리자가 설정한 robots.txt 파일의 지시를 존중한다. robots.txt는 검색 엔진 로봇이나 웹 크롤러에게 사이트의 특정 부분에 대한 접근을 허용하거나 차단하는 규칙을 정의하는 파일이다. 따라서 웨이백 머신의 크롤러가 특정 사이트나 디렉터리에 대한 접근을 robots.txt에서 금지한다면, 해당 부분은 아카이브 대상에서 제외된다.
이 정책은 사이트 소유자의 의사를 존중하고, 개인정보 보호나 민감한 데이터의 무단 수집을 방지하는 역할을 한다. 그러나 이로 인해 역사적 기록 보존 측면에서 문제가 발생하기도 한다. 만약 어떤 사이트가 폐쇄된 후, 새 소유자가 해당 도메인을 획득하여 robots.txt에 모든 크롤러의 접근을 차단하는 규칙을 추가하면, 웨이백 머신은 기존에 아카이브했던 해당 도메인의 모든 과거 기록도 공개에서 제거한다. 이는 역사적 자료에 대한 공공의 접근권을 제한할 수 있다는 비판을 받는다.
이러한 문제를 인식한 인터넷 아카이브는 2017년부터 일부 예외 정책을 시행한 바 있다. 공공의 이익이 큰 자료나 사라진 도메인의 기록에 대해서는 robots.txt 규칙을 완화하여 자료를 계속 공개하기도 한다. 하지만 이는 일반적인 규칙보다는 예외적인 조치에 해당한다. 결국 robots.txt는 웨이백 머신의 아카이빙 범위와 공개 여부에 직접적인 영향을 미치는 핵심 요소 중 하나이다.
4.2. 아카이브 불가 사례
4.2. 아카이브 불가 사례
웨이백 머신은 방대한 웹 콘텐츠를 보존하지만, 기술적 제약이나 사이트 운영자의 정책에 따라 아카이브가 불가능하거나 제한되는 사례가 존재한다.
특정 웹사이트는 robots.txt 파일을 통해 크롤러의 접근을 차단하여 웨이백 머신의 자동 아카이빙을 방지한다. 또한, 로그인이 필요한 회원제 서비스나 강력한 방화벽, 클라우드플레어의 보안 챌린지를 사용하는 사이트는 일반적으로 아카이브되지 않는다. 동영상 플랫폼의 콘텐츠는 저장이 어려운 편인데, 유튜브의 경우 영상이 제대로 저장되지 않거나 전혀 다른 영상이 기록되는 오류가 종종 발생한다. 소셜 미디어 플랫폼도 제각각으로, 페이스북 게시물은 비교적 잘 저장되지만 인스타그램 게시물이나 텀블러의 사진 및 동영상은 대부분 아카이브되지 않는다.
국내 주요 포털 사이트 및 커뮤니티도 다양한 이유로 아카이빙에 제한을 받는다. 나무위키는 과거 데이터센터 IP 주소를 이유로 차단되어 현재는 저장 요청 시 오류를 반환한다. 네이버 블로그는 아카이브된 페이지에서 위젯 로딩 오류가 빈번히 발생하며, 디시인사이드 게시물은 저장되지만 댓글은 원본과 다르게 기록되는 문제가 있다. 에펨코리아와 포스타입은 아카이빙에서 완전히 제외되었다. 또한, 도메인 포워딩이 적용된 URL은 최종 목적지 페이지를 제대로 캡처하지 못하는 경우가 많다.
5. 문제점
5. 문제점
5.1. 잊힐 권리
5.1. 잊힐 권리
웨이백 머신은 인터넷의 역사적 기록을 보존하는 중요한 역할을 하지만, 그 과정에서 잊힐 권리와 충돌하는 문제를 안고 있다. 잊힐 권리는 개인이 시간이 지남에 따라 과거의 정보가 공개되는 것을 막고, 디지털 세계에서 자신의 과거를 통제할 수 있는 권리를 의미한다. 웨이백 머신이 웹페이지를 무단으로 아카이브하고 공개하는 방식은, 특히 개인이 삭제하기를 원하는 민감한 개인정보나 부끄러운 과거 기록이 영구적으로 남아 공개될 수 있다는 점에서 비판을 받는다.
이 서비스는 기본적으로 크롤러를 통해 웹을 자동으로 수집하며, 사전 허가 없이 정보를 보존한다. 사용자가 자신의 콘텐츠 삭제를 요청할 수 있지만, 그 과정이 복잡하고 요청이 항상 수용되는 것은 아니다. 이는 개인의 자율적 결정에 따른 정보 통제권을 침해할 가능성이 있다. 또한, 저작권 문제와 함께, 사생활 보호와 정보 보존이라는 상충되는 가치 사이에서 지속적인 논쟁을 불러일으킨다.
따라서 웨이백 머신은 정보의 영구 보존이라는 공공의 이익과 개인의 잊힐 권리 사이에서 균형을 찾는 어려운 과제에 직면해 있다. 이는 인터넷 아카이브와 같은 디지털 도서관이 앞으로 해결해야 할 핵심적인 윤리적 딜레마 중 하나이다.
5.2. 저작권
5.2. 저작권
웨이백 머신은 저작권법과 관련된 복잡한 문제에 직면해 있다. 서비스의 기본 원칙은 웹상의 공개 콘텐츠를 무단으로 수집하여 보존하는 것이며, 이는 사전 허가 없이 이루어진다. 이는 정보 보존이라는 공익적 목적과 콘텐츠 소유자의 권리 사이에서 지속적인 긴장 관계를 만들어낸다. 일반적으로 웨이백 머신은 저작권 소유자로부터 항의나 삭제 요청이 접수되면 해당 자료를 아카이브에서 제거하는 사후 대응 방식을 취한다.
가장 공식적이고 효과적인 삭제 요청 절차는 미국의 디지털 밀레니엄 저작권법(DMCA)에 따른 것이다. DMCA 삭제 요청은 법적 근거와 요청자의 신원 정보를 제출해야 하므로, 웨이백 머신 측에서도 비교적 신속하게 응대하는 편이다. 반면, 일반 개인이 보내는 비공식적인 항의나 삭제 요청은 상대적으로 무시되거나 처리 속도가 느린 경우가 많다는 지적이 있다.
또한, 웨이백 머신을 통해 현재까지 유효한 저작권이 존재하는 음악, 영화, 게임 등의 디지털 콘텐츠가 불법적으로 공유되고 접근 가능한 경우가 있다는 문제도 제기된다. 인터넷 아카이브는 사용자의 IP 주소를 기록하지 않는다고 주장하여, 저작권 침해 가해자를 특정하기 어렵게 만든다. 이는 방대한 아카이브 자료를 효과적으로 관리하고 감시할 인력이 부족한 현실과 맞물려 저작권 침해 소지를 지속적으로 양산하는 구조적 한계로 작용한다.
5.3. DMCA 삭제
5.3. DMCA 삭제
웨이백 머신은 디지털 밀레니엄 저작권법(DMCA)에 따른 삭제 요청을 수용한다. 이 법률은 저작권 침해를 이유로 한 콘텐츠 삭제 요청에 대한 법적 절차를 규정하고 있다. 저작권자나 그 대리인은 특정 URL의 아카이브된 스냅샷이 자신의 저작권을 침해한다고 판단할 경우, 법정에서 정한 형식에 따라 웨이백 머신 운영사인 인터넷 아카이브에 삭제 요청을 제출할 수 있다.
DMCA 삭제 요청이 접수되고 유효하다고 판단되면, 해당 요청에 명시된 웹 페이지의 모든 과거 아카이브 기록이 서비스에서 제거된다. 이는 특정 시점의 단일 스냅샷만이 아닌, 해당 주소의 전체 아카이브 역사가 삭제됨을 의미한다. 이 절차는 법적 효력을 가지는 공식 요청에 대한 대응이므로, 일반적인 개인의 삭제 요청에 비해 상대적으로 신속하게 처리되는 경향이 있다.
그러나 이 과정에서 문제가 발생할 수도 있다. 예를 들어, 특정 페이지에 대한 DMCA 요청이 제출되면, 해당 페이지와 무관하지만 동일 도메인 내에 존재하는 다른 모든 공개 아카이브 기록까지 함께 삭제되는 광범위한 영향이 발생할 수 있다. 이는 때때로 정보 보존 측면에서 논란을 일으키기도 한다. 또한, 인터넷 아카이브는 사용자 IP 주소를 기록하지 않는다고 주장하여, 저작권 침해 업로더의 신원을 추적하기 어렵게 만드는 점도 지적받는다.
6. 여담
6. 여담
웨이백 머신은 1996년 5월 10일에 설립되어 2001년 10월 24일에 공개된 서비스이다. 이는 브루스터 케일이 설립한 비영리 기관 인터넷 아카이브가 운영하는 디지털 타임캡슐로, 웹사이트 저장 및 미러 서비스를 제공한다. 현존하는 최초의 웹 아카이브는 1996년 5월 10일에 기록된 펩시코 웹사이트이며, 본격적인 웹 크롤링 저장은 같은 해 10월 29일에 시작되었다.
인터넷 아카이브는 웨이백 머신 외에도 다양한 프로젝트를 운영한다. 예를 들어, 오래된 웹 페이지를 통째로 복원하는 HTTP 프록시 프로젝트인 Protoweb이 있으며, 웹사이트들의 미래를 상징적으로 보여주며 인터넷 자유를 위한 캠페인을 하는 Wayforward Machine이라는 사이트도 있다. 또한 위키미디어 재단에는 깨진 하이퍼링크를 웨이백 머신 링크로 자동 대체해주는 InternetArchiveBot이라는 봇이 활동하고 있다.
웨이백 머신의 서버 시스템은 페타박스(Petabox)라는 이름의 랙 캐비넷으로 구성되어 있으며, C언어와 Perl로 작성되었다. 서비스는 광고 없이 운영되며, 회원가입은 선택 사항이다. 사용을 편리하게 하기 위해 인터넷 아카이브에서 공식 지원하는 크롬 확장 프로그램도 존재한다.
