문서의 각 단락이 어느 리비전에서 마지막으로 수정되었는지 확인할 수 있습니다. 왼쪽의 정보 칩을 통해 작성자와 수정 시점을 파악하세요.

소리 합성 | |
정의 | 음성이나 음악과 같은 소리를 인공적으로 생성하는 기술 |
유형 | 음성 합성 음악 합성 환경음 합성 |
주요 용도 | 음성 안내 시스템 음성 보조 기술 콘텐츠 제작 음악 제작 |
관련 분야 | 디지털 신호 처리 인공지능 머신러닝 |
상세 정보 | |

소리 합성은 음성이나 음악, 그리고 다양한 환경음을 인공적으로 생성하는 기술이다. 이 기술은 사람의 목소리를 모방한 음성 합성부터 악기의 소리를 만들어내는 음악 합성까지 다양한 유형을 포함한다.
주요 용도는 매우 폭넓다. 음성 안내 시스템이나 음성 보조 기술과 같은 실용적인 응용부터, 영화나 게임의 사운드 디자인, 그리고 음악 제작과 같은 콘텐츠 제작 분야에서 핵심적인 역할을 한다.
이러한 기술의 발전은 디지털 신호 처리의 진보와 밀접하게 연관되어 있으며, 최근에는 인공지능과 머신러닝 기술이 접목되어 더욱 자연스럽고 표현력豊은 소리를 생성하는 데 기여하고 있다.

소리 합성 기술의 역사는 18세기 말부터 19세기 초에 등장한 초기 기계식 음성 생성 장치에서 시작된다. 볼프강 폰 켐펠렌이 1791년에 발표한 '음성 기계'는 인간의 성대와 같은 기관을 모방하여 모음 소리를 생성한 최초의 시도 중 하나로 기록된다. 이후 19세기에는 찰스 휘트스톤의 '스피킹 머신'과 같은 장치들이 자음과 모음을 결합하여 단어를 발음하는 데 성공하며 기계식 음성 합성의 기초를 닦았다.
20세기 초반에는 전기 기계식 장치가 등장했다. 1939년 벨 연구소에서 개발된 보코더는 인간 음성을 분석하여 합성하는 방식으로, 이후 음악 신시사이저와 음성 합성 기술 발전에 중요한 영향을 미쳤다. 1950년대와 1960년대에는 컴퓨터를 이용한 디지털 음성 합성이 본격화되었으며, 최초의 완전한 컴퓨터 음성 합성 시스템이 개발되어 텍스트를 음성으로 변환하는 TTS 기술의 시초가 되었다.
음악 합성 분야에서는 1960년대 로버트 무그에 의해 개발된 최초의 상용 신시사이저가 등장하며 전자 음악의 대중화에 기여했다. 1970년대에는 FM 합성 방식이, 1980년대에는 샘플링 기반의 합성 기술이 보급되어 다양한 음색을 창출하는 데 활용되었다. 1990년대 이후에는 물리 모델링 합성과 같은 고도화된 알고리즘과 인공지능, 머신러닝 기술이 접목되며 소리 합성의 정밀도와 자연스러움이 크게 향상되었다.

소리 합성에서 음원 생성 방식은 인공적으로 소리를 만들어내는 핵심 과정을 가리킨다. 이 방식은 생성 대상에 따라 크게 음성 합성, 음악 합성, 환경음 합성으로 구분된다. 음성 합성은 문자 정보를 음성 신호로 변환하는 기술로, 음성 안내 시스템이나 음성 보조 기술에 널리 활용된다. 음악 합성은 악기의 소리나 완전히 새로운 음색을 생성하여 음악 제작에 사용된다. 환경음 합성은 자연의 바람 소리나 도시의 소음과 같은 배경음을 인공적으로 만들어 콘텐츠 제작이나 가상 현실 환경 구축에 적용된다.
이러한 다양한 음원을 생성하는 기술적 접근법은 시대와 함께 진화해왔다. 초기에는 단순한 파형을 생성하는 방식에서 출발했으나, 디지털 신호 처리 기술의 발전과 함께 보다 정교한 방법들이 등장했다. 특히 인공지능과 머신러닝, 특히 딥러닝 기술이 접목되면서 기존의 규칙 기반 방식에서 데이터 기반의 생성 방식으로 패러다임이 빠르게 전환되고 있다. 이는 보다 자연스럽고 표현력 있는 소리를 합성할 수 있는 가능성을 열었다.
음원 생성의 구체적인 방법론으로는 미리 녹음된 소리를 재생하는 샘플링 방식, 수학적 알고리즘으로 파형을 직접 계산하는 알고리즘 합성 방식, 그리고 소리가 발생하는 물리적 과정을 시뮬레이션하는 물리 모델링 합성 방식 등이 있다. 각 방식은 장단점이 있어, 목적에 따라 단독으로 또는 복합적으로 사용된다. 예를 들어, 현실적인 피아노 소리는 샘플링으로, 완전히 새로운 전자 음악의 음색은 알고리즘 합성으로 생성하는 경우가 많다.
소리 합성에서 음색 조절은 생성된 소리의 음색, 즉 소리의 질감이나 색깔을 변형하고 다듬는 과정을 가리킨다. 단순히 음높이나 음량을 조절하는 것을 넘어, 소리의 스펙트럼 구성이나 시간적 변화를 제어하여 원하는 특성을 부여하는 핵심 단계이다. 이 과정은 신시사이저나 음성 합성 시스템에서 사용자가 최종적인 소리를 설계하고 표현력을 확보하는 데 필수적이다.
음색 조절의 주요 수단으로는 필터, 엔벨로프 생성기, LFO 등이 있다. 필터는 소리의 주파수 스펙트럼을 선택적으로 강화하거나 약화시켜 음색을 근본적으로 변화시킨다. 엔벨로프 생성기는 음량이나 필터 커트오프 주파수 등 소리의 매개변수가 시간에 따라 어떻게 변하는지를 제어하는 곡선을 생성하여, 음이 시작되고 유지되며 사라지는 과정을 자연스럽거나 역동적으로 만든다. LFO는 저주파 신호를 생성하여 음높이나 음색에 주기적인 떨림이나 리듬적인 변화를 더하는 데 사용된다.
이러한 조절 기법들은 가법 합성, 감산 합성, FM 합성 등 다양한 소리 합성 방식에 공통적으로 적용된다. 예를 들어, 감산 합성에서는 풍부한 고조파를 가진 음원에 필터를 강력하게 적용하여 음색을 조절하는 것이 핵심이다. 현대의 디지털 신호 처리 기술과 인공지능 기반 접근법은 이러한 음색 조절을 더욱 정교하고 직관적으로 만드는 방향으로 발전하고 있다.

가법 합성은 가장 오래된 전자 음악 합성 방식 중 하나이다. 이 방식은 기본적인 사인파와 같은 단순한 파형을 여러 개 더해 복잡한 음색을 만들어내는 원리를 기반으로 한다. 각 파형은 특정 진동수와 진폭을 가지며, 이들을 조합함으로써 다양한 배음 구조를 가진 소리를 합성할 수 있다. 이론적으로는 푸리에 급수에 따라 모든 주기적인 파형은 기본파와 그 정수배의 사인파 합으로 표현 가능하다는 점에 착안했다.
초기 가법 합성은 각 파형의 진폭을 개별적으로 제어해야 했기 때문에 매우 복잡한 작업이었다. 하몬드 오르간과 같은 초기 전자 악기에서 일부 구현되었으나, 완전한 실시간 제어는 아날로그 신시사이저 시대에는 기술적 한계가 있었다. 이후 디지털 신호 처리 기술의 발전으로 각 배음의 진폭과 위상을 정밀하게 제어하는 것이 가능해지면서, 보다 정교하고 자연스러운 음색 생성이 실현되었다.
가법 합성은 특히 종소리나 종 소리, 일부 관악기 음색처럼 배음 구조가 뚜렷하고 예측 가능한 소리를 모사하는 데 효과적이다. 그러나 피아노나 기타처럼 발음 시 복잡한 과도 현상이 나타나는 소리나, 타악기와 같은 비주기적인 소리를 합성하기에는 한계가 있다. 이러한 한계로 인해 이후에는 보다 효율적인 감산 합성이나 FM 합성 같은 다른 방식이 주류로 떠올랐다.
오늘날에는 컴퓨터의 연산 능력 향상으로 인해 가법 합성의 복잡한 계산이 실시간으로 처리 가능해졌다. 일부 현대적인 소프트웨어 신시사이저와 가상 악기에서는 가법 합성 엔진을 활용하여 고전적인 음색을 재현하거나 새로운 형태의 음색을 창조하기도 한다. 또한 인공지능과 머신러닝을 결합한 최신 음성 및 음악 합성 연구에서도 그 기본 원리가 참고되고 있다.
감산 합성은 가장 오래되고 널리 사용되는 소리 합성 방식 중 하나이다. 이 방식은 풍부한 고조파를 포함하는 복잡한 파형에서 시작하여, 필터를 사용해 특정 주파수 대역을 제거하거나 감쇠시켜 원하는 음색을 만들어낸다. 마치 조각가가 원석에서 필요 없는 부분을 깎아내는 것과 유사한 원리로, 기본 파형의 스펙트럼을 '빼는' 방식으로 소리를 형성한다.
감산 합성의 핵심 구성 요소는 발진기, 필터, 엔벨로프 생성기, 증폭기이다. 발진기에서 생성된 톱니파나 구형파와 같은 기본 파형은 풍부한 고조파 성분을 갖는다. 이 신호는 필터를 통과하며 특정 주파수 대역이 억제되고, 엔벨로프 생성기에 의해 제어되는 필터의 주파수와 증폭기의 레벨이 시간에 따라 변화함으로써 음색과 음량이 조형된다. 특히 필터의 컷오프 주파수를 실시간으로 변경하는 것이 음색 변화의 주요 수단이다.
이 방식은 1970년대 아날로그 신시사이저의 주류를 이루었으며, 무그나 ARP와 같은 초기 신시사이저가 대표적으로 감산 합성 방식을 채택했다. 그 유산은 현대의 많은 가상 악기와 신시사이저에도 이어지고 있다. 감산 합성은 특히 풍부하고 따뜻한 저음과 날카로운 리드 사운드, 신스 베이스 라인을 생성하는 데 강점을 보인다.
감산 합성의 한계는 기본 파형의 스펙트럼 내용에 크게 의존한다는 점이다. 생성할 수 있는 소리의 범위가 원본 파형에 포함된 고조파의 조합으로 제한되기 때문에, FM 합성이나 물리 모델링 합성처럼 복잡한 스펙트럼을 처음부터 생성하는 방식에 비해 음색의 다양성 측면에서 제약이 있을 수 있다. 그러나 그 직관적인 조작 방식과 특징적인 아날로그 사운드 덕분에 여전히 음악 제작 현장에서 사랑받는 방식으로 자리 잡고 있다.
FM 합성은 주파수 변조(Frequency Modulation)의 원리를 이용하여 복잡한 음색을 생성하는 소리 합성 방식이다. 이 방식은 캐나다의 엔지니어 존 채닝이 1960년대에 제안했으며, 이후 1980년대 야마하의 DX7 신시사이저를 통해 대중적으로 널리 알려지게 되었다. FM 합성은 상대적으로 적은 수의 오실레이터와 연산자로도 풍부한 배음 구조를 만들어낼 수 있어, 금속성이나 종소리 같은 날카롭고 복잡한 음색을 구현하는 데 특히 효과적이다.
FM 합성의 기본 구조는 '운반자'와 '변조자'라는 두 개의 사인파 오실레이터로 구성된다. 변조자의 출력 신호가 운반자의 주파수를 실시간으로 변화시키면, 그 결과 생성되는 신호에는 원래의 기본 주파수 외에 다양한 측음대가 발생한다. 이 측음대의 진폭과 주파수 분포는 변조 지수에 따라 결정되며, 이를 통해 음색을 정밀하게 조절할 수 있다. 실제 신시사이저에서는 이 기본 구조를 확장하여 4개 또는 6개의 연산자를 서로 다른 알고리즘으로 연결하여 더욱 다채로운 소리를 생성한다.
FM 합성은 하드웨어 리소스를 적게 사용하면서도 역동적이고 복잡한 음색을 생성할 수 있다는 장점이 있다. 이로 인해 1980년대 아케이드 게임의 효과음이나 초기 컴퓨터 음악에서 많이 활용되었다. 그러나 음색 예측과 조작이 어렵고, 전통적인 감산 합성에 비해 따뜻하고 풍부한 음색을 만들어내는 데는 한계가 있다는 평가도 받는다.
이후 디지털 기술이 발전하면서 FM 합성의 원리는 물리 모델링 합성이나 소프트웨어 신시사이저의 일부로 계속해서 진화하고 있다. 또한 최근에는 인공지능과 결합하여 FM 매개변수를 자동으로 최적화하거나 새로운 음색을 생성하는 연구도 진행되고 있다.
샘플링은 실제 녹음된 소리의 일부를 디지털 샘플로 사용하여 소리를 재생성하거나 변형하는 방식이다. 이 방식은 기존의 순수 합성 방식과 달리, 실제 악기나 자연의 소리를 정밀하게 재현하는 데 강점을 보인다. 샘플링의 핵심은 원본 소리의 파형 데이터를 디지털로 기록하고, 이를 재생할 때 재생 속도나 피치를 변경하여 다양한 음높이와 길이의 소리를 만들어내는 것이다. 이 기술은 디지털 신호 처리의 발전과 함께 실용화되었다.
초기 샘플러는 메모리 용량의 제약으로 인해 짧은 소리만을 저장할 수 있었으나, 기술의 발전으로 긴 녹음본이나 여러 개의 샘플을 계층적으로 사용하는 멀티샘플링이 가능해졌다. 이를 통해 피아노나 현악기와 같은 복잡한 음색의 악기를 매우 사실적으로 모사할 수 있게 되었다. 샘플링은 음악 제작 분야에서 가상 악기의 기반이 되었으며, 사운드 디자인에서는 기존 소리를 변형하여 새로운 효과음을 창조하는 데 널리 활용된다.
샘플링 방식은 크게 두 가지 주요 응용으로 나뉜다. 하나는 신시사이저나 디지털 피아노에서 특정 악기의 소리를 재현하기 위해 사용되는 방식이다. 다른 하나는 힙합이나 일렉트로닉 음악에서 원본 음원의 일부를 잘라내어 새로운 리듬이나 멜로디를 구성하는 창작 기법으로 사용된다. 후자의 경우, 저작권 문제가 중요한 논의 사항이 되기도 한다.
물리 모델링 합성은 실제 악기나 발성 기관과 같은 물리적 소리 발생체의 구조와 운동 법칙을 수학적으로 모델링하여 소리를 생성하는 방식이다. 이 방식은 악기의 현, 관, 막, 공명체 등의 물리적 특성과 상호작용을 방정식으로 표현하고, 이를 디지털 신호 처리 기법으로 시뮬레이션한다. 기존의 가법 합성이나 샘플링이 미리 녹음된 소리를 재생하거나 단순히 파형을 더하는 방식과 달리, 물리 모델링 합성은 소리가 만들어지는 근본적인 과정을 계산하여 매우 자연스럽고 역동적인 음색을 구현할 수 있다.
이 방식은 특히 전통적인 신시사이저로는 구현하기 어려운 관악기나 현악기의 미세한 표현, 예를 들어 바이올린의 활 켜는 압력과 속도에 따른 음색 변화나 플루트의 호흡과 운지법에 따른 소리 변화 등을 모사하는 데 강점을 보인다. 또한, 음성 합성 분야에서는 인간의 성대, 혀, 입술 등의 움직임을 모델링하여 보다 자연스러운 음성을 생성하는 연구에도 활용된다.
그래뉼러 합성은 소리를 미세한 입자 단위로 분해하여 재구성하는 방식의 소리 합성 기법이다. 이때 사용되는 미세한 소리 입자를 그레인이라고 부르며, 각 그레인은 매우 짧은 지속 시간(보통 수 밀리초에서 수백 밀리초)을 가진 오디오 샘플이다. 이 기법은 음악 제작과 사운드 디자인 분야에서 독특하고 유기적인 텍스처를 창조하는 데 널리 활용된다.
그래뉼러 합성의 기본 과정은 크게 분석과 합성의 두 단계로 나눌 수 있다. 먼저, 기존의 소리 파일을 분석하여 수많은 그레인으로 분할한다. 이후 합성 단계에서는 이 그레인들을 재생 순서, 재생 속도, 피치, 밀도 등을 변형하여 재조합한다. 특히 그레인들의 재생 밀도와 재생 위치를 실시간으로 조절할 수 있어, 원본 소리의 특징을 유지하면서도 완전히 새로운 사운드를 만들어낼 수 있다.
이 합성 방식은 음악과 예술 분야에서 주목할 만한 표현력을 제공한다. 예를 들어, 하나의 피아노 음을 수천 개의 그레인으로 나누어 느리게 재생하면 공간감이 넘치는 풍성한 음장을 만들 수 있으며, 그레인들의 재생 순서를 무작위화하면 복잡한 질감의 환경음을 합성하는 데 효과적이다. 또한 실시간 처리가 가능하여 라이브 퍼포먼스에서 즉흥적인 사운드 변형 도구로도 사용된다.

소리 합성 기술은 현대 음악 제작의 핵심 도구로 자리 잡았다. 신시사이저와 같은 전자 악기는 소리 합성 기술을 통해 전통 악기에서는 구현할 수 없는 새로운 음색과 사운드를 창조한다. MIDI 프로토콜과 함께 사용되어 작곡가와 프로듀서가 다양한 가상 악기를 편리하게 제어하고 편집할 수 있게 해준다. 이는 홈 레코딩과 디지털 오디오 워크스테이션의 보급과 맞물려 음악 창작의 접근성을 혁신적으로 높였다.
음악 제작에서 사용되는 합성 방식은 매우 다양하다. 가법 합성은 여러 사인파를 더해 복잡한 음색을 만드는 방식이며, 감산 합성은 풍부한 하모닉스를 가진 소리에서 특정 주파수 대역을 걸러내어 원하는 음색을 얻는다. FM 합성은 주파수 변조를 이용해 복잡한 배음 구조를 빠르게 생성하는 방식으로, 1980년대 많은 인기를 끌었다. 샘플링은 실제 악기나 소리의 녹음본을 재생하는 방식으로, 매우 사실적인 사운드를 구현할 수 있다.
최근에는 물리 모델링 합성과 그래뉼러 합성 같은 고급 기법도 활발히 사용된다. 물리 모델링 합성은 악기의 물리적 발음 원리를 수학적으로 모델링하여 매우 자연스러운 음색 변화를 구현한다. 그래뉼러 합성은 짧은 오디오 샘플을 작은 입자로 쪼갠 뒤 재구성하여 독특한 질감의 사운드를 만들어낸다. 이러한 기술들은 일렉트로닉 음악, 필름 스코어, 게임 음악 등 다양한 장르의 콘텐츠 제작에 깊이 관여하며, 음악적 표현의 지평을 지속적으로 확장하고 있다.
음성 합성은 사람의 음성을 인공적으로 생성하는 기술이다. 이 기술은 문자나 기타 데이터를 입력받아 이를 인간의 음성과 유사한 형태의 음파로 변환한다. 음성 합성의 핵심은 자연스럽고 이해하기 쉬운 음성을 만들어내는 데 있다.
음성 합성 기술은 크게 규칙 기반 합성과 코퍼스 기반 합성으로 나눌 수 있다. 초기에는 음성학적 규칙과 미리 녹음된 음소 단위를 조합하는 방식이 주로 사용되었다. 이후 발전하여 대량의 실제 음성 데이터를 기반으로 필요한 음성을 생성하는 코퍼스 기반 방식, 특히 통계적 파라미터 음성 합성이 널리 활용되었다.
최근에는 인공지능, 특히 딥러닝 기술의 발전으로 음성 합성의 품질이 획기적으로 향상되었다. 신경망을 이용한 엔드투엔드 음성 합성 모델은 텍스트 입력부터 음성 출력까지의 전체 과정을 단일 모델로 처리하며, 매우 자연스럽고 표현력이 풍부한 음성을 생성할 수 있다.
이 기술은 음성 안내 시스템, 스크린 리더와 같은 음성 보조 기술, 콘텐츠 제작, 개인 비서 애플리케이션 등 다양한 분야에서 응용된다. 또한, 특정 화자의 음성을 모방하는 화자 적응 기술이나 감정을 담은 음성을 합성하는 연구도 활발히 진행되고 있다.
소리 합성 기술은 사운드 디자인 분야에서 핵심적인 도구로 활용된다. 사운드 디자인은 영화, 게임, 방송, 공연 등 다양한 미디어와 콘텐츠에 필요한 효과음, 배경음, 환경음을 창조하고 구성하는 작업이다. 전통적으로는 실제 사물을 녹음하거나 아날로그 신시사이저를 사용했지만, 디지털 소리 합성 기술의 발전으로 무한한 창의적 가능성이 열렸다.
특히 가상 현실이나 증강 현실 콘텐츠에서는 현실에 존재하지 않는 사물이나 환경의 소리를 설계해야 하는 경우가 많다. 이때 물리 모델링 합성은 가상 객체의 재질, 크기, 충돌 방식을 파라미터로 설정해 사실적인 소리를 생성하는 데 유용하다. 또한 그래뉼러 합성은 기존 샘플을 잘게 분해하고 변형하여 완전히 새로운 질감의 소리를 만들어내는 데 적합하다.
게임 산업에서는 인터랙티브한 경험을 제공하기 위해 플레이어의 행동에 실시간으로 반응하는 동적 사운드를 설계한다. 여기서는 MIDI 프로토콜과 결합된 다양한 합성 방식이 사용되어 상황에 따라 음색과 음고가 유기적으로 변화하는 소리를 생성한다. 이러한 기술은 사용자 경험을 극대화하는 데 중요한 역할을 한다.
요약하면, 사운드 디자인은 단순한 효과음 제작을 넘어 이야기를 풍부하게 하고 감정을 이끌어내는 예술적·기술적 분야이며, 소리 합성은 그 실현을 위한 강력한 수단이다.

신시사이저는 소리 합성 기술을 이용하여 전자적으로 소리를 생성, 변형하는 악기 또는 장치이다. 이는 전통적인 악기와 달리 현이나 관의 진동과 같은 물리적 발음을 필요로 하지 않으며, 전기 신호를 생성하고 이를 조작하여 다양한 음색을 만들어낸다. 신시사이저의 핵심은 발진기를 통해 기본 파형을 생성하고, 이를 필터나 엔벨로프 생성기 등으로 변조하여 최종 소리를 완성하는 데 있다.
주요 합성 방식에 따라 그 종류와 특징이 나뉜다. 역사적으로 초기에는 가법 합성이나 감산 합성 방식이 주류를 이루었으며, 1980년대에는 FM 합성이 큰 인기를 끌었다. 이후 샘플링 기술이 발전하여 실제 악기의 소리를 디지털로 기록해 재생하는 방식이 보편화되었고, 물리 모델링 합성은 가상의 악기 구조를 수학적으로 시뮬레이션하여 사실적인 소리를 생성한다. 그래뉼러 합성은 작은 음향 조각을 결합하는 독특한 방식을 사용한다.
신시사이저는 음악 제작 분야에서 혁명을 일으켰다. 전자 음악과 팝 음악의 발전에 결정적인 역할을 했으며, 스튜디오 환경에서 필수적인 장비가 되었다. MIDI 프로토콜과 결합되어 컴퓨터 기반 음악 시퀀싱과의 호환성을 제공하며, 현대에는 소프트웨어 신시사이저의 형태로 디지털 오디오 워크스테이션 내에서 널리 사용된다.
이 장치는 단순한 악기 복제를 넘어 이전에 존재하지 않았던 완전히 새로운 소리를 창조하는 도구로서의 가치를 지닌다. 이는 사운드 디자인, 영화 음악, 게임 음악 및 다양한 미디어 아트 분야에서 광범위하게 응용되어 현대 음향 문화의 중요한 기반을 형성한다.
MIDI(Musical Instrument Digital Interface)는 전자 악기, 컴퓨터, 음악 소프트웨어 및 기타 관련 장비들이 서로 통신하기 위해 사용하는 표준 프로토콜이다. MIDI는 음악 자체의 소리 신호를 전송하는 것이 아니라, 연주 정보를 디지털 데이터 형태로 주고받는다. 예를 들어, 어떤 건반을 얼마나 세게 눌렀는지, 음을 내고 있는 시간은 얼마인지, 음높이는 무엇인지 등의 정보를 전달한다. 이는 실제 음향 데이터를 전송하는 오디오 신호와는 근본적으로 다르다.
MIDI 데이터는 '이벤트' 단위로 구성된다. 대표적인 이벤트로는 특정 음을 켜는 '노트 온', 음을 끄는 '노트 오프', 음의 강도를 나타내는 벨로시티, 음색을 바꾸는 프로그램 체인지, 음높이를 미세하게 조절하는 피치 벤드 등이 있다. 이러한 명령어들은 시퀀서 소프트웨어에 기록되어 편집되고 재생될 수 있으며, 최종적으로는 신시사이저나 사운드 모듈 같은 음원 장치를 통해 실제 소리로 합성된다.
이 기술은 음악 제작 환경을 혁신적으로 변화시켰다. 다양한 장비와 소프트웨어를 하나의 체계로 통합할 수 있게 하여, 작곡, 편곡, 녹음의 효율성을 극대화했다. 또한 컴퓨터 기반의 디지털 오디오 워크스테이션의 발전에 핵심적인 역할을 했다. 오늘날에도 가상 악기와 음악 소프트웨어 간의 표준 통신 수단으로 광범위하게 사용되고 있다.
소리 합성 기술은 디지털 신호 처리 기술과 밀접한 관계를 맺고 발전해왔다. 디지털 신호 처리는 아날로그 형태의 소리 신호를 디지털 데이터로 변환하고, 이를 분석, 변조, 합성하는 일련의 수학적 연산을 다루는 학문 분야이다. 소리 합성의 핵심은 결국 디지털 형태의 소리 파형을 생성하고 조작하는 것이므로, 이 모든 과정은 디지털 신호 처리의 이론과 알고리즘 위에서 이루어진다.
소리 합성에서 디지털 신호 처리는 다양한 형태로 적용된다. 예를 들어, 가법 합성은 여러 개의 정현파를 더해 복잡한 파형을 만드는 방식으로, 이는 주파수 영역에서의 신호 처리를 기반으로 한다. 감산 합성은 풍부한 하모닉을 가진 파형에서 필터를 사용해 특정 주파수 대역을 제거하여 음색을 조절하는데, 여기서 사용되는 필터 설계는 디지털 신호 처리의 중요한 주제이다. 또한, 샘플링 기반 합성에서 원본 샘플의 피치를 변경하거나 시간을 늘이는 작업에도 정교한 디지털 신호 처리 알고리즘이 필요하다.
최근에는 인공지능과 머신러닝, 특히 딥러닝 기법이 디지털 신호 처리와 결합되어 소리 합성 분야를 혁신하고 있다. 신경망 모델을 통해 대량의 음성 또는 음악 데이터를 학습시켜, 기존의 물리적 모델이나 규칙 기반 접근법으로는 구현하기 어려웠던 자연스럽고 표현력豊한 소리를 합성할 수 있게 되었다. 이러한 AI 기반 합성은 음성 합성뿐만 아니라 음악 제작과 사운드 디자인 분야에도 활발히 응용되고 있다.

소리 합성 기술은 단순히 음악이나 음성을 만드는 도구를 넘어, 다양한 사회적, 문화적, 윤리적 논의를 불러일으키는 분야이다. 예를 들어, 딥페이크 기술과 결합된 고도의 음성 합성은 특정 인물의 목소리를 모방하여 가짜 음성 콘텐츠를 생성할 수 있어, 허위 정보 유포나 사생활 침해와 같은 심각한 문제를 야기할 수 있다. 이는 미디어 리터러시 교육의 중요성을 다시 한번 부각시키는 계기가 되었다.
또한, 인공지능 기반 음악 합성 기술의 발전은 창작의 주체성에 대한 질문을 던진다. AI가 생성한 음악의 저작권은 누구에게 귀속되어야 하는지, 이는 예술가의 역할을 어떻게 재정의하게 될지에 대한 논의가 활발히 진행 중이다. 일부에서는 이를 새로운 예술 형식의 등장으로 보는 반면, 다른 이들은 인간 고유의 창의성을 위협하는 요소로 우려하기도 한다.
기술의 접근성 측면에서는 긍정적인 변화도 나타나고 있다. 과거 고가의 신시사이저 하드웨어에 의존하던 음악 제작이, 이제는 스마트폰 앱이나 무료 소프트웨어를 통해 누구나 쉽게 시작할 수 있게 되었다. 이는 DIY 문화와 결합하여 아마추어 창작자들의 활발한 활동을 촉진하고, 음악 장르의 경계를 허무는 실험적인 시도를 가능하게 했다. 결국 소리 합성 기술은 단순한 도구를 넘어, 우리가 소리를 만들고, 듣고, 소통하는 방식을 근본적으로 변화시키고 있다.