오픈 마인드 커먼 센스
1. 개요
1. 개요
오픈 마인드 커먼 센스는 매사추세츠 공과대학교의 MIT 미디어 랩에서 개발한 인공지능 프로젝트이다. 이 프로젝트의 핵심 목표는 웹을 통해 수천 명의 사람들이 기여한 방대한 상식 지식 베이스를 구축하고 활용하는 것이다. 프로젝트는 1999년부터 2016년까지 활발히 진행되었으며, 디지털 직관 그룹이 운영을 맡았다[6].
이 프로젝트는 사람들이 직접 제출한 자연어 문장들로 구성된 자연어 코퍼스를 기반으로 한다. 이 원시 데이터는 더 구조화된 형태로 변환되어 시맨틱 네트워크인 ConceptNet을 구성한다. 또한, 행렬 기반 표현인 AnalogySpace를 통해 차원 축소 기법을 적용하여 새로운 지식을 추론할 수 있도록 했다.
오픈 마인드 커먼 센스는 인간의 일상적 지식을 컴퓨터가 이해하고 활용할 수 있는 형태로 체계화하려는 시도로, 기계 학습과 자연어 처리 연구의 중요한 자원으로 활용되었다. 이를 통해 구축된 지식 베이스는 연구 프로젝트와 상용 소프트웨어 개발의 기반을 제공했다.
2. 역사
2. 역사
오픈 마인드 커먼 센스 프로젝트는 1999년 9월 MIT 미디어 랩에서 개발 작업이 시작되었다. 이 아이디어는 마빈 민스키, 푸시 싱, 캐서린 하바시 등에 의해 구상되었으며, 당시 초기 단계에 있던 인터넷의 분산된 인적 컴퓨팅 능력을 활용하여 대규모 상식 지식 베이스를 구축하려는 시도였다. 프로젝트는 1년 후인 2000년에 인터넷에 공개되었으며, 원래는 Everything2 웹사이트와 구글의 미니멀리스트 인터페이스에서 영감을 받았다.
프로젝트의 초기 리더 중 한 명이었던 푸시 싱은 2007년에 MIT 미디어 랩의 교수가 되어 상식 컴퓨팅 그룹을 이끌 예정이었으나, 2006년 2월 28일 자살했다. 이후 이 프로젝트는 캐서린 하바시가 이끄는 MIT 미디어 랩의 디지털 직관 그룹에서 운영되었다. 오픈 마인드 커먼 센스는 1999년부터 2016년까지 활발히 진행되어, 15,000명 이상의 기여자가 참여한 백만 개 이상의 영어 사실을 포함한 방대한 자연어 코퍼스를 구축하는 성과를 거두었다.
3. 데이터베이스 및 웹사이트
3. 데이터베이스 및 웹사이트
오픈 마인드 커먼 센스의 데이터베이스는 일반인이 웹사이트를 통해 기여한 방대한 자연어 문장들의 모음이다. 이 코퍼스는 객체나 사건 간의 관계, 상황의 감정적 내용, 그리고 사람들의 욕구와 목표에 관한 다양한 상식적 진술을 포함한다. 예를 들어 "코트는 따뜻하게 입는 데 사용된다"나 "친구와 시간을 보내는 것은 행복을 유발한다"와 같은 문장들이 수집되었다.
초기 웹사이트는 기여자가 자유로운 형식의 문장을 입력할 수 있도록 설계되었다. 그러나 이후 버전에서는 지식 수집의 정확성과 구조화를 높이기 위해 빈칸 채우기 형식의 템플릿만을 사용하는 방식으로 전환되었다. 또한 프로젝트는 게임화 접근법의 일환으로 'Verbosity'라는 게임을 통해 데이터를 수집하기도 했다.
이렇게 모인 원시 데이터는 단순한 문장들의 집합이므로, 인공지능 시스템이 계산적으로 활용하기 위해서는 추가적인 처리 과정이 필요하다. 이 과정을 통해 자연어 코퍼스는 시맨틱 네트워크인 ConceptNet이나 행렬 기반 표현인 AnalogySpace와 같은 더 구조화된 표현으로 변환된다.
4. ConceptNet
4. ConceptNet
ConceptNet은 오픈 마인드 커먼 센스 프로젝트에서 수집된 자연어 코퍼스를 기반으로 구축된 시맨틱 네트워크이다. 이는 상식 지식을 계산적으로 활용하기 위해 원시 문장들을 구조화된 표현으로 변환한 결과물이다. ConceptNet은 노드가 개념을, 엣지가 두 개념 간의 상식적 관계를 나타내는 방향성 그래프로 표현된다.
이 네트워크는 얕은 구문 분석기를 사용하여 OMCS의 자연어 주장을 특정 패턴과 일치시켜 생성된다. 각 주장은 제한된 관계 집합 중 하나를 선택하여 두 개념 사이의 연결로 표현된다. 이러한 관계는 특히 지식 수집 웹사이트에서 사용된 다양한 "빈칸 채우기" 템플릿과 직접적으로 연결되어 있다.
ConceptNet의 데이터 구조는 2007년에 크게 재구성되어 ConceptNet 3으로 발표되었다. 이후 소프트웨어 에이전트 그룹에 의해 새로운 버전의 데이터베이스와 API가 배포되는 등 지속적으로 발전해 왔다. 2010년에는 OMCS 공동 설립자인 캐서린 하바시를 비롯한 연구자들이 ConceptNet을 핵심 기술로 활용하는 텍스트 분석 소프트웨어 회사 Luminoso를 설립하기도 했다.
5. 기계 학습 도구
5. 기계 학습 도구
오픈 마인드 커먼 센스 프로젝트에서 구축된 지식 베이스는 다양한 기계 학습 도구의 기반이 된다. 이 프로젝트의 핵심 표현 중 하나인 AnalogySpace는 ConceptNet에 저장된 상식적 관계를 행렬 형태로 표현하고, 특잇값 분해와 같은 차원 축소 기법을 적용하여 새로운 지식을 추론할 수 있도록 설계되었다. AnalogySpace는 방대한 상식 데이터에서 패턴을 일반화하고 압축된 표현을 생성함으로써 인공지능 애플리케이션이 보다 효율적으로 상식을 활용할 수 있게 한다.
이러한 기계 학습 도구를 지원하기 위해 프로젝트 팀은 Divisi라는 파이썬 기반의 기계 학습 툴킷을 개발 및 배포했다. Divisi는 AnalogySpace의 구현을 포함하며, 자연어 코퍼스, 구조화된 지식 베이스인 ConceptNet, 또는 이 둘의 결합을 기반으로 한 기계 학습 작업을 수행할 수 있도록 설계되었다. 이 툴킷은 연구자들이 상식 지식을 활용한 자연어 처리 및 추론 시스템을 구축하는 데 활용되었다.
오픈 마인드 커먼 센스의 지식과 도구들은 단순한 연구를 넘어 실용적인 소프트웨어 개발로도 이어졌다. 프로젝트 공동 설립자인 캐서린 하바시는 ConceptNet 기술을 기반으로 텍스트 분석 회사인 Luminoso를 공동 설립했다. 이 회사는 기업의 고객 리뷰, 소셜 미디어 데이터, 설문 조사 결과 등 방대한 정성적 데이터에서 의미와 통찰력을 추출하는 상용 솔루션을 제공하며, 프로젝트의 연구 성과가 산업 현장에 적용된 대표적인 사례가 되었다.
6. 다른 프로젝트와의 비교
6. 다른 프로젝트와의 비교
오픈 마인드 커먼 센스와 유사한 목표를 가진 다른 프로젝트로는 무한 언어 학습 시스템, Mindpixel, Cyc, Learner, SenticNet, 프리베이스, YAGO, 디비피디아 등이 있다. 이들 프로젝트는 지식 수집과 참여 유도를 위한 다양한 접근 방식을 탐구했다.
오픈 마인드 커먼 센스는 수집된 상식 지식을 공식적인 논리 구조 대신 영어 문장으로 표현하는 데 중점을 둔 점에서 Cyc와 구별된다. Cyc는 상식을 형식 논리로 표현하는 데 주력한 반면, 오픈 마인드 커먼 센스는 비형식적이고 자연스러운 표현을 선호했다. 또한, 오픈 마인드 커먼 센스에서 파생된 ConceptNet은 공식적인 언어적 엄밀함보다 개념적 연결성에 초점을 맞춘 시맨틱 네트워크로, 구조적으로는 Cyc보다는 워드넷에 더 가깝다고 평가된다.
이러한 차이는 프로젝트의 기본 철학과 활용 목적에서 비롯된다. 오픈 마인드 커먼 센스는 대중의 참여를 통한 대규모 상식 데이터 구축에 초점을 맞춘 반면, Cyc는 정밀한 논리 추론을 가능하게 하는 지식 베이스를 구축하는 데 목표를 두었다. 결과적으로, 오픈 마인드 커먼 센스와 ConceptNet은 자연어 처리 및 기계 학습 애플리케이션에 더 널리 활용되는 경향이 있다.
