Information은 확률에 따른 symbol의 기대 bits 수로, $log_{2}{(1/p)}$와 같은 수식으로 표현된다. 왜 이런 수식으로 표현될까?
Bit는 정보의 양을 세는 단위로, 0과 1로 구성되어 있다. 만일 하나의 symbol에 ‘1’을 할당했다면, 다음 symbol들은 ‘1’로 시작할 수 없다. 만일 다음 symbol이 1로 시작하는 ‘11’을 쓴다면, ‘111’이라는 코드가 송신될 시 ‘1’이 3개인지, ‘1’이 하나 ‘11’이 하나 온 건지 쉽사리 구분하기 어렵기 때문이다. 이를 유식한 말로 'prefix-condition이 아니다' 라고 표현할 수 있다. 만일 이 코드가 fixed length code라면, prefix-condition일 수 있으나, 이 코드가 variable length code라면 절대 prefix-condition일 수 없다. (Variable length code는 symbol마다 코드 길이가 다른 코드를 지칭한다. Fixed length code는 이와 대비되는 단어로, symbol들의 코드 길이가 모두 같다.)
한 편, 어떤 일이 일어날 확률을 0과 1 사이의 실수로 표현한다면(쉽게 말해 확률이 1이면 100%, 0.5이면 50%확률을 갖는다고 할 수 있다.), ‘1’로 표현되는 symbol은 1/2 = 0.5만큼의 확률을 가진다고 할 수 있다. 이 symbol이 ‘1’을 할당받았기에, 다른 symbol들은 1로 시작하는 코드를 할당받을 수 없기 때문이다. 이로 인해 다른 symbol들은 혼동을 방지하기 위해 0으로 코드를 시작해야만 한다. 따라서 ‘1’은 0.5확률만큼의 가치가 있다. 마찬가지로 어떤 symbol에 ‘11’을 할당했다면 다른 symbol들은 ‘11’로 시작할 수 없다. ‘00’, ‘01’, ‘10’, ‘11’ 로 표현되는 값 중 하나의 값을 모두 독점한 셈이므로, ‘11’로 표현되는 symbol은 1/4 = 0.25의 확률을 가진다고 할 수 있다. 이 논리를 지속하다보면, 코드길이에 따른 확률이 선형이라는 전제 하에, p의 확률을 가지는 symbol은 $log_{2}{(1/p)}$의 Information을 갖는다는 것을 알 수 있다. ($log_{2}{(1/0.5)}$ = 1, $log_{2}{(1/0.25)}$ = 2)
참고로 위의 논리에 의해, 확률이 0.5(50%)가 넘지 않는 symbol이 한 개의 코드만 할당받거나(0 or 1), 확률이 0.25(25%)가 넘지 않는 symbol이 두 개의 코드를 할당받을시에는(00 or 01 or 10 or 11) 이는 낭비이며 수신데이터의 이론상 최저치인 entropy에 근접하기 어려운 형태라는 것을 알 수 있다. 또한 0.5(50%)보다 큰 확률을 가진 값이 1bit(‘0’ 혹은 ‘1’)을 할당받거나, 0.25의 확률보다 큰 확률을 가진 값이 2bits(‘00’, ‘01’, ‘10’, ‘11’)를 할당받는다면, 이는 entropy에 근접하는 이상적인 값이라고 할 수 있다. 우리는 Information을 살펴보면서 이상적인 압축이 진행되고 있는지 확인할 수 있다.
'정보이론' 카테고리의 다른 글
ASCII code(아스키 코드) (0) | 2020.07.23 |
---|---|
[정보이론] 허프만 코딩(Huffman Coding) (1) | 2020.07.13 |