형식 언어

1. 개요

형식 언어는 수학적 기호와 규칙을 사용하여 엄밀하게 정의된 언어이다. 이는 자연어와 달리 모호함이 없고 정확한 구조를 가지며, 주로 컴퓨터 과학과 계산 이론 분야에서 프로그래밍 언어 설계, 컴파일러 이론, 자연 언어 처리 및 형식 검증 등에 활용된다. 형식 언어의 기초는 이산수학에 두고 있으며, 언어학과도 깊은 연관을 가진다.

형식 언어 이론의 중요한 출발점은 1956년 노엄 촘스키가 제안한 문법 계층 구조이다. 이 계층 구조, 즉 촘스키 위계는 언어를 생성하는 규칙의 복잡성에 따라 정규 언어, 문맥 자유 언어, 문맥 의존 언어, 재귀 열거 언어 등으로 분류하며, 이는 형식 문법과 오토마타 이론의 핵심이 된다.

형식 언어는 알파벳으로부터 만들어지는 문자열의 집합으로 정의된다. 이러한 언어를 표현하고 다루기 위해 생성 문법, 정규 표현식, 그리고 다양한 종류의 오토마타와 같은 도구들이 사용된다. 또한 형식 언어들은 합집합, 교집합, 여집합, 연결, 클레이니 스타와 같은 연산을 통해 조합되고 확장될 수 있다.

2. 정의와 기본 개념

2.1. 알파벳과 문자열

형식 언어를 정의하는 가장 기본적인 구성 요소는 알파벳이다. 여기서 알파벳은 임의의 유한 집합을 의미하며, 그 원소를 기호 또는 문자라고 부른다. 예를 들어, 이진수를 표현하기 위한 알파벳은 {0, 1}이 될 수 있고, 영어 단어를 위한 알파벳은 로마자 26개로 구성된 집합이 될 수 있다.

이러한 알파벳의 기호들을 유한하게 나열한 것을 문자열 또는 단어라고 한다. 문자열의 길이는 그 문자열을 구성하는 기호의 개수로 정의된다. 예를 들어, 알파벳 Σ = {a, b}가 주어졌을 때, 'ab', 'aab', 'babba' 등은 모두 Σ 위에서 정의된 문자열이다. 길이가 0인 특별한 문자열을 공 문자열이라고 하며, 보통 ε 또는 λ 기호로 나타낸다.

주어진 알파벳 Σ에 대해, Σ 위의 모든 가능한 유한 문자열의 집합을 Σ*로 표기한다. 이 집합은 항상 공 문자열을 포함하며, 클레이니 스타 연산의 결과물이다. 형식 언어는 바로 이 Σ*의 부분 집합으로 정의된다. 즉, 어떤 알파벳 Σ에 대해, L ⊆ Σ*를 만족하는 집합 L이 하나의 형식 언어가 된다.

2.2. 형식 언어의 정의

형식 언어는 알파벳이라고 불리는 유한한 기호 집합과, 그 알파벳의 기호들로 구성된 문자열들 중 특정한 규칙을 만족하는 것들만을 모아놓은 집합으로 정의된다. 이는 자연어와 달리 모호함이 없이 수학적으로 엄밀하게 기술되며, 구문론적 구조에만 집중한다는 점이 특징이다. 이러한 정의는 계산 이론과 컴퓨터 과학의 근간을 이루며, 프로그래밍 언어의 설계와 분석에 직접적으로 활용된다.

형식 언어 이론의 체계적인 기초는 1956년 언어학자 노엄 촘스키가 생성 문법의 개념을 도입하고 문법을 계층적으로 분류한 데서 비롯되었다. 그의 연구는 형식 문법을 통해 언어를 생성하는 규칙을 명시하는 방법을 제시했으며, 이는 단순히 언어를 묘사하는 것을 넘어 언어 자체를 생성하는 장치로 문법을 바라보는 패러다임의 전환을 가져왔다. 이 이론은 이후 자연 언어 처리와 컴파일러 이론의 발전에 결정적인 토대를 제공했다.

따라서 형식 언어는 특정 알파벳 Σ에 대해, Σ* (Σ의 모든 가능한 문자열의 집합)의 부분집합으로 볼 수 있다. 예를 들어, 알파벳이 {0, 1}일 때, "0으로 시작하는 모든 문자열의 집합"이나 "1의 개수가 짝수인 모든 문자열의 집합" 등은 각각 하나의 형식 언어가 된다. 언어를 정의하는 방법에는 이를 생성하는 형식 문법을 기술하거나, 언어에 속하는 문자열을 인식하는 오토마타를 설계하는 방식 등이 있다.

3. 형식 언어의 분류 (촘스키 위계)

3.1. 정규 언어

정규 언어는 촘스키 위계에서 가장 제한적이면서도 가장 단순한 형태의 형식 언어이다. 이 언어는 정규 문법에 의해 생성되거나, 동등하게 유한 오토마타에 의해 인식될 수 있다. 정규 언어는 주로 패턴 매칭, 텍스트 처리, 어휘 분석과 같은 기본적인 문자열 처리 작업에 널리 응용된다.

정규 언어를 표현하는 주요 방법으로는 정규 표현식이 있다. 정규 표현식은 문자열의 집합을 간결하게 표현하는 표기법으로, 합집합, 연결, 클레이니 스타 연산을 기본 구성 요소로 사용한다. 예를 들어, 'a'로 시작하고 'b'로 끝나는 모든 문자열의 집합은 정규 표현식 a.*b로 나타낼 수 있다. 이러한 표현식은 유한 상태 기계로 쉽게 변환되어 구현될 수 있다.

정규 언어의 인식 모델은 결정적 유한 오토마타와 비결정적 유한 오토마타이다. 이들 오토마타는 유한한 개수의 상태와 상태 간 전이로 구성되며, 입력 문자열을 하나씩 읽어가며 상태를 변경한다. 문자열을 모두 읽었을 때 최종 상태가 허용 상태라면 해당 문자열은 언어에 속하는 것으로 인식된다. 모든 비결정적 유한 오토마타는 동등한 결정적 유한 오토마타로 변환될 수 있다는 것이 알려져 있다.

정규 언어는 촘스키 위계 상에서 문맥 자유 언어의 진부분집합이다. 이는 모든 정규 언어가 문맥 자유 언어이지만, 그 역은 성립하지 않음을 의미한다. 예를 들어, 균형 잡힌 괄호로 구성된 언어는 대표적인 문맥 자유 언어이지만, 정규 언어는 아니다. 정규 언어는 펌핑 보조정리를 이용하여 주어진 언어가 정규 언어가 아님을 증명하는 데 자주 활용된다.

3.2. 문맥 자유 언어

문맥 자유 언어는 촘스키 위계에서 정규 언어의 상위 계층에 위치하는 형식 언어의 한 종류이다. 이 언어는 문맥 자유 문법에 의해 생성되며, 각 생성 규칙의 좌변에 단 하나의 비단말 기호만이 등장하는 특징을 가진다. 이로 인해 규칙의 적용이 주변 문맥에 의존하지 않아 '문맥 자유'라는 이름이 붙었다. 프로그래밍 언어의 대부분의 구문 구조는 이 문맥 자유 언어로 기술될 수 있어, 컴파일러 설계와 프로그래밍 언어의 구문 분석 분야에서 핵심적인 역할을 한다.

이 언어를 인식하는 추상 기계는 푸시다운 오토마타이다. 유한 상태 기계인 정규 언어의 인식기와 달리, 푸시다운 오토마타는 무제한의 메모리를 제공하는 스택을 보조 저장 장치로 활용한다. 이 스택 메모리를 이용해, 예를 들어 괄호의 열기와 닫기 쌍과 같은 특정한 종류의 의존 관계를 검사할 수 있다. 따라서 모든 정규 언어는 문맥 자유 언어이지만, 그 역은 성립하지 않는다.

문맥 자유 언어의 대표적인 예로는 정확히 짝이 맞는 괄호로만 이루어진 문자열의 집합이 있다. 이러한 언어는 더 간단한 정규 표현식으로는 기술할 수 없으며, 문맥 자유 문법이나 푸시다운 오토마타를 필요로 한다는 점에서 계산 능력이 한 단계 더 강력함을 보여준다. 이는 형식 언어 이론에서 언어 계층을 구분하는 중요한 기준이 된다.

3.3. 문맥 의존 언어

문맥 의존 언어는 촘스키 위계에서 문맥 자유 언어보다 더 넓고 재귀 열거 언어보다는 좁은 범주의 형식 언어이다. 이 언어들은 문맥 의존 문법에 의해 생성되며, 생성 규칙이 적용될 때 주변의 문맥(기호)을 고려해야 한다는 특징을 가진다. 이는 문맥 자유 문법의 규칙이 비단말 기호 하나만을 좌변에 둘 수 있는 것과 대비된다.

문맥 의존 언어를 인식하는 기계 모델은 선형 제한 오토마타이다. 이는 튜링 기계의 한 변형으로, 입력 문자열의 길이에 선형적으로 비례하는 양의 테이프 공간만을 사용하도록 제한된 기계이다. 이러한 계산 모델의 능력은 정규 언어나 문맥 자유 언어를 다루는 유한 상태 기계나 푸시다운 오토마타보다 강력하지만, 모든 가능한 계산을 수행하는 일반 튜링 기계보다는 제한적이다.

주요 예시로는 a^n b^n c^n (n개의 a, n개의 b, n개의 c가 연속적으로 나타나는 문자열들의 집합)과 같은 언어가 있다. 이 언어는 문맥 자유 언어가 될 수 없지만, 문맥 의존 언어로는 표현 가능하다. 이는 프로그래밍 언어에서 특정 종류의 의존 관계를 검사하거나, 자연 언어 처리에서 문맥에 민감한 구문 분석이 필요한 경우에 그 응용 개념을 찾아볼 수 있다.

3.4. 재귀 열거 언어

재귀 열거 언어는 촘스키 위계에서 가장 넓은 범주의 형식 언어이다. 이 언어들은 튜링 기계와 같은 계산 모델에 의해 인식되며, 재귀 열거 집합과 동등한 개념으로 볼 수 있다. 간단히 말해, 어떤 문자열이 해당 언어에 속하는지 여부를 판별하는 알고리즘이 존재하는 언어를 의미한다. 여기에는 속하는 문자열을 확실히 '예'라고 답할 수 있는 절차가 있지만, 속하지 않는 문자열에 대해서는 계산이 무한히 계속될 수도 있다는 점이 특징이다.

이 언어들은 형식 문법 중에서 가장 제약이 적은 무제약 문법(또는 0형 문법)에 의해 생성된다. 무제약 문법은 생성 규칙에 거의 제한이 없어, 문맥 의존 언어나 문맥 자유 언어를 포함하는 모든 형식 언어를 생성할 수 있다. 따라서 재귀 열거 언어는 정규 언어부터 시작해 컴퓨터 과학에서 다루는 대부분의 복잡한 언어들을 포괄한다.

재귀 열거 언어의 중요성은 계산 이론의 근본적인 문제와 연결된다. 튜링 기계의 정지 문제와 같이, 재귀 열거 언어에 속하지 않는 문자열을 유한한 시간 내에 '아니오'라고 판별하는 것은 일반적으로 불가능할 수 있다. 이는 판정 문제의 한계를 보여주며, 알고리즘적으로 풀 수 없는 문제의 존재를 시사한다.

이러한 언어들은 프로그래밍 언어의 구문을 정의하는 데 직접적으로 사용되기보다는, 계산 가능성과 형식 검증의 이론적 한계를 이해하는 데 기여한다. 또한, 자연 언어 처리에서 인간 언어의 무한한 생성 능력을 모델링하는 이론적 틀을 제공하기도 한다.

4. 표현 방식

4.1. 문법

형식 언어에서 문법은 특정 형식 언어의 모든 문자열을 생성하기 위한 규칙의 유한 집합이다. 이는 언어의 구조를 엄밀하게 정의하는 생성 장치로, 주로 프로그래밍 언어의 구문을 명세하거나 자연 언어 처리의 기초 모델로 사용된다. 문법은 일반적으로 생성 규칙의 집합으로 구성되며, 이 규칙들은 기호들을 다른 기호들의 시퀀스로 대체하는 방식을 기술한다.

가장 널리 사용되는 문법 모델은 노엄 촘스키가 1956년 제안한 형식 문법이다. 촘스키는 생성 규칙의 형태에 따라 문법을 네 가지 계층으로 분류하는 촘스키 위계를 제시했다. 이 위계에는 정규 문법, 문맥 자유 문법, 문맥 의존 문법, 재귀 열거 문법이 포함된다. 각 문법 유형은 서로 다른 복잡성의 언어를 생성하며, 이는 해당 언어를 인식하는 오토마타의 계산 능력과 직접적으로 연결된다.

문법은 일반적으로 튜플 G = (V, Σ, R, S)로 정의된다. 여기서 V는 비단말 기호의 집합, Σ는 단말 기호의 집합(알파벳), R은 생성 규칙의 집합, S는 시작 기호를 나타낸다. 생성 규칙은 α → β의 형태를 가지며, 이는 문자열 α가 문자열 β로 대체될 수 있음을 의미한다. 이러한 규칙을 반복적으로 적용하여 시작 기호 S로부터 도출 가능한 모든 단말 문자열의 집합이 문법 G가 생성하는 언어 L(G)가 된다.

문법의 주요 응용 분야는 컴파일러 설계이다. 프로그래밍 언어의 구문은 대부분 문맥 자유 문법으로 정의되며, 컴파일러의 파서는 이 문법을 사용하여 소스 코드의 구조를 분석하고 파스 트리를 생성한다. 또한, 형식 검증과 자동화 이론에서도 시스템의 동작을 명세하거나 프로토콜을 모델링하는 데 문법이 활용된다.

4.2. 오토마타

오토마타는 형식 언어를 인식하거나 생성하는 추상적인 계산 모델이다. 이는 유한한 상태를 가지며, 입력 심볼에 따라 상태 간 전이를 통해 작동하는 기계로 생각할 수 있다. 오토마타 이론은 계산 이론의 핵심을 이루며, 특정 형식 언어의 집합이 어떤 종류의 오토마타에 의해 인식될 수 있는지를 연구한다. 이는 컴퓨터 과학에서 알고리즘과 컴파일러 설계의 기초가 된다.

주요 오토마타의 종류는 촘스키 위계에 따른 형식 언어의 분류와 밀접하게 대응한다. 가장 단순한 유한 오토마타는 정규 언어를 인식하며, 상태 전이도로 표현된다. 푸시다운 오토마타는 추가적인 스택 메모리를 이용해 문맥 자유 언어를 처리한다. 더 복잡한 선형 제한 오토마타와 튜링 기계는 각각 문맥 의존 언어와 재귀 열거 언어를 다룬다.

이러한 오토마타 모델은 프로그래밍 언어의 구문 분석과 렉서 구현에 직접적으로 활용된다. 예를 들어, 정규 표현식은 내부적으로 유한 오토마타로 변환되어 문자열 패턴 매칭에 사용된다. 또한 형식 검증 분야에서는 시스템의 동작을 모델링하고 오류를 탐지하기 위해 다양한 오토마타가 적용된다.

4.3. 정규 표현식

정규 표현식은 특정한 패턴을 가진 문자열의 집합을 표현하는 데 사용되는 형식 언어이다. 이는 문자열의 검색, 치환, 추출 등 텍스트 처리 작업에서 매우 강력한 도구로 활용된다. 정규 표현식은 기본적으로 원자 기호, 결합 연산자, 반복 연산자 등을 조합하여 구성된다. 예를 들어, 문자 하나는 그 자체로 패턴이 되며, 두 패턴을 연결하거나(연결), 둘 중 하나를 선택하거나(합집합), 하나의 패턴을 0회 이상 반복하는(클레이니 스타) 방식으로 복잡한 패턴을 정의한다.

정규 표현식으로 표현 가능한 언어의 클래스는 정규 언어와 정확히 일치한다. 이는 유한 오토마타나 정규 문법으로도 동일한 언어를 표현할 수 있음을 의미한다. 즉, 어떤 언어가 정규 표현식으로 기술될 수 있다면, 그 언어를 인식하는 유한 상태 기계를 구성할 수 있으며, 그 역도 성립한다. 이러한 등가성은 계산 이론의 중요한 결과 중 하나이다.

정규 표현식은 실용적인 측면에서 프로그래밍 언어의 렉서(어휘 분석기) 설계, 텍스트 편집기의 검색 및 치환 기능, 로그 파일 분석, 데이터 유효성 검사 등 다양한 분야에 널리 적용된다. 대부분의 현대 프로그래밍 언어는 정규 표현식을 처리하는 라이브러리나 내장 구문을 제공한다. 또한, 유닉스 계열 운영체제의 grep, sed, awk와 같은 명령줄 도구들은 정규 표현식을 핵심 기능으로 삼고 있다.

정규 표현식의 문법은 구현체에 따라 다소 차이가 있을 수 있지만, 기본적인 메타문자(예: ., *, +, ?, |, [], ())와 그 의미는 공통적이다. 확장된 기능으로는 그룹 캡처, 탐색 어서션, 수량자 등이 있어 더욱 정교한 패턴 매칭이 가능하다. 이러한 표현력에도 불구하고, 정규 표현식은 문맥 자유 언어 이상의 복잡성을 가진 패턴(예: 균형 잡힌 괄호 문자열)을 표현할 수 없다는 한계를 가진다.

5. 형식 언어의 연산

5.1. 합집합, 교집합, 여집합

형식 언어는 집합으로 간주되므로, 집합론의 기본 연산인 합집합, 교집합, 여집합을 적용할 수 있다. 이러한 연산은 주어진 언어들로부터 새로운 언어를 구성하는 방법을 제공한다.

두 언어 L1과 L2의 합집합은 L1에 속하거나 L2에 속하는 모든 문자열의 집합이다. 이는 논리적 '또는(OR)' 연산에 해당한다. 예를 들어, 언어 L1 = {"ab", "c"}와 언어 L2 = {"c", "de"}의 합집합은 {"ab", "c", "de"}가 된다. 교집합은 L1과 L2 모두에 속하는 문자열의 집합으로, 논리적 '그리고(AND)' 연산에 해당한다. 앞선 예에서 두 언어의 교집합은 공통 원소인 {"c"}가 된다. 특정 알파벳 Σ를 전체 집합으로 볼 때, 한 언어 L의 여집합은 Σ* (알파벳으로 만들 수 있는 모든 문자열의 집합)에 속하지만 L에는 속하지 않는 문자열들의 집합을 의미한다.

이러한 연산들은 언어의 특정 성질을 보존하는지가 중요한 이슈이다. 예를 들어, 정규 언어의 클래스는 합집합, 교집합, 여집합 연산에 대해 닫혀 있다. 즉, 두 정규 언어의 합집합, 교집합, 여집합을 취해도 그 결과는 여전히 정규 언어이다. 이는 해당 연산을 수행하는 유한 오토마타를 구성할 수 있기 때문이다. 반면, 문맥 자유 언어의 클래스는 합집합 연산에 대해서는 닫혀 있지만, 교집합과 여집합 연산에 대해서는 일반적으로 닫혀 있지 않다. 이는 문맥 자유 언어의 한계를 보여주는 성질 중 하나이다.

5.2. 연결, 클레이니 스타

두 개 이상의 형식 언어로부터 새로운 언어를 생성하는 대표적인 연산으로는 연결 연산과 클레이니 스타 연산이 있다. 이러한 연산들은 언어의 구조를 조합하거나 반복 패턴을 정의하는 데 핵심적인 역할을 한다.

연결 연산은 두 언어 L과 M이 주어졌을 때, L에 속한 문자열과 M에 속한 문자열을 차례로 이어붙여 만든 모든 문자열의 집합으로 새로운 언어를 정의한다. 이렇게 생성된 언어를 L과 M의 연결 또는 곱이라 부르며, L·M 또는 LM으로 표기한다. 예를 들어, 언어 L = {"ab", "c"}와 M = {"d", "ef"}의 연결 LM은 {"abd", "abef", "cd", "cef"}가 된다. 이 연산은 문자열의 순차적 결합을 모델링한다.

클레이니 스타 연산은 주어진 언어 L에 대해, L의 문자열을 0번 이상 유한하게 연결하여 만들 수 있는 모든 문자열의 집합을 의미한다. 이는 클레이니 스타에 의해 도입되었으며, L*로 표기한다. 여기서 0번 연결된 문자열은 공 문자열이다. 예를 들어, 언어 L = {"a"}의 클레이니 스타 L*는 {"ε", "a", "aa", "aaa", ...}와 같은 모든 길이의 'a'로만 이루어진 문자열의 집합이 된다. 이 연산은 무한 반복이나 임의의 반복 횟수를 허용하는 패턴을 표현하는 데 필수적이다.

이 두 연산은 정규 표현식의 기본 구성 요소로서, 정규 언어를 정의하고 기술하는 데 광범위하게 사용된다. 또한, 형식 문법에서 생성 규칙을 통해 언어를 정의할 때도 암묵적으로 활용되는 핵심 개념이다.

6. 응용 분야

6.1. 프로그래밍 언어 및 컴파일러

형식 언어 이론은 프로그래밍 언어의 설계와 구현에 핵심적인 기초를 제공한다. 대부분의 현대 프로그래밍 언어는 문맥 자유 언어에 속하는 형식 문법을 사용하여 그 구문 구조를 엄밀하게 정의한다. 이렇게 정의된 문법은 컴파일러나 인터프리터가 소스 코드를 분석하고 해석하는 데 필요한 정확한 규칙을 제공한다. 컴파일러의 핵심 구성 요소인 구문 분석기는 주어진 프로그래밍 언어의 문법에 따라 소스 코드의 문법적 구조를 검증하고, 이를 중간 표현이나 기계어로 변환하기 위한 트리를 생성한다.

형식 언어의 분류 체계인 촘스키 위계는 프로그래밍 언어의 복잡성과 이를 처리하는 도구의 능력을 이해하는 데 중요한 틀을 제공한다. 예를 들어, 정규 언어는 어휘 분석 단계에서 토큰을 식별하는 데 사용되는 반면, 더 복잡한 언어 구조는 문맥 자유 문법을 필요로 한다. 이러한 이론적 배경은 효율적인 파싱 알고리즘을 개발하고, 컴파일러의 오류 검출 능력을 향상시키며, 새로운 프로그래밍 언어의 설계를 가능하게 한다.

6.2. 자연 언어 처리

형식 언어 이론은 자연 언어 처리 분야에서 중요한 이론적 토대를 제공한다. 자연 언어 처리의 초기 연구는 노엄 촘스키가 제안한 형식 문법 계층 구조, 즉 촘스키 위계의 영향을 크게 받았다. 이는 인간의 언어를 정규 문법이나 문맥 자유 문법과 같은 형식적 규칙 체계로 모델링하려는 시도로 이어졌다.

특히, 문맥 자유 문법은 자연 언어의 구문 구조를 분석하는 데 널리 활용되었다. 파싱 알고리즘을 개발하여 문장을 구문 트리로 분해하고, 그 구조를 이해하는 기초를 마련한 것이다. 이는 초기 기계 번역 시스템이나 질의 응답 시스템의 핵심 구성 요소로 작용했다.

그러나 자연 언어에는 모호성, 문맥 의존성, 화용론적 요소 등 형식 언어로 완전히 포착하기 어려운 복잡한 특성이 존재한다. 따라서 현대의 자연 언어 처리, 특히 딥러닝과 신경망 기반 접근법은 통계적 모델과 벡터 공간 표현에 더 많이 의존하고 있다. 그럼에도 불구하고 형식 의미론이나 지식 표현과 같은 특정 하위 분야에서는 여전히 형식 언어의 논리적 엄밀함이 유용하게 적용되고 있다.

6.3. 형식 검증

형식 검증은 하드웨어나 소프트웨어 시스템이 특정 명세나 규격을 만족하는지를 수학적으로 엄밀하게 증명하는 과정이다. 이는 시스템의 정확성, 안전성, 신뢰성을 보장하기 위해 형식 언어와 논리를 활용하는 중요한 분야이다. 특히 임베디드 시스템, 항공 전자 공학, 의료 기기와 같이 실패 비용이 매우 높은 분야에서 핵심적인 역할을 한다.

형식 검증의 주요 접근법은 크게 모델 체킹과 정리 증명으로 나눌 수 있다. 모델 체킹은 시스템의 유한 상태 모델과 명세를 형식 언어로 표현한 후, 자동화된 도구를 사용해 모든 가능한 상태를 탐색하며 명세 위반 여부를 검사한다. 반면 정리 증명은 시스템과 명세를 논리식으로 표현하고, 수학적 추론을 통해 명세가 만족됨을 증명하는 방법이다.

이러한 검증 기술은 하드웨어 검증, 프로토콜 검증, 소프트웨어 오류 탐지 등에 널리 적용된다. 예를 들어, 프로그래밍 언어의 컴파일러가 언어 명세를 정확히 구현했는지 검증하거나, 복잡한 통신 프로토콜의 데드락 발생 가능성을 분석하는 데 사용된다. 이를 통해 시스템 설계 초기 단계에서 잠재적 결함을 발견하고, 신뢰할 수 있는 시스템을 구축하는 데 기여한다.

형식 언어

정의	수학적 기호와 규칙을 사용하여 엄밀하게 정의된 언어
유형	생성 문법 형식 문법
주요 용도	프로그래밍 언어 설계 자연 언어 처리 컴파일러 이론 자동화 및 계산 이론
관련 분야	이산수학 계산 이론 컴퓨터 과학 언어학
최초 등장	1956년 노엄 촘스키의 문법 계층 구조 제안[1]
상세 정보
형식 문법	형식 언어를 생성하는 규칙의 집합
생성 문법	주어진 알파벳으로부터 언어의 문자열을 생성하는 규칙
촘스키 위계	형식 문법을 생성 능력에 따라 분류한 계층 구조 유형-0 (무제약 문법) 유형-1 (문맥 의존 문법) 유형-2 (문맥 자유 문법) 유형-3 (정규 문법)
형식 언어의 예	프로그래밍 언어 (C, Java, Python) 마크업 언어 (HTML, XML) 정규 표현식으로 표현 가능한 언어

형식 언어

정의	수학적 기호와 규칙을 사용하여 엄밀하게 정의된 언어
유형	생성 문법 형식 문법
주요 용도	프로그래밍 언어 설계 자연 언어 처리 컴파일러 이론 자동화 및 계산 이론
관련 분야	이산수학 계산 이론 컴퓨터 과학 언어학
최초 등장	1956년 노엄 촘스키의 문법 계층 구조 제안[1]
상세 정보
형식 문법	형식 언어를 생성하는 규칙의 집합
생성 문법	주어진 알파벳으로부터 언어의 문자열을 생성하는 규칙
촘스키 위계	형식 문법을 생성 능력에 따라 분류한 계층 구조 유형-0 (무제약 문법) 유형-1 (문맥 의존 문법) 유형-2 (문맥 자유 문법) 유형-3 (정규 문법)
형식 언어의 예	프로그래밍 언어 (C, Java, Python) 마크업 언어 (HTML, XML) 정규 표현식으로 표현 가능한 언어

형식 언어

1. 개요

2. 정의와 기본 개념

2.1. 알파벳과 문자열

2.2. 형식 언어의 정의

3. 형식 언어의 분류 (촘스키 위계)

3.1. 정규 언어

3.2. 문맥 자유 언어

3.3. 문맥 의존 언어

3.4. 재귀 열거 언어

4. 표현 방식

4.1. 문법

4.2. 오토마타

4.3. 정규 표현식

5. 형식 언어의 연산

5.1. 합집합, 교집합, 여집합

5.2. 연결, 클레이니 스타

6. 응용 분야

6.1. 프로그래밍 언어 및 컴파일러

6.2. 자연 언어 처리

6.3. 형식 검증

7. 관련 문서

편집 제한

편집 제한

문서 정보

분류

편집 제한

문서 정보

분류

편집 제한