퍼셉트론을 배우고 다층 퍼셉트론이 나오게 된 배경과 구조를 배우다.
1. 퍼셉트론과 활성화 함수
퍼셉트론은 간단하게 선형함수 + 활성화 함수의 조합이다. 우리가 처음 보는 것은 활성화 함수일 것이다. 퍼셉트론은 인공 신경망이고 인공 신경망은 인간의 뉴런을 본떠 만든 것이라고 했다. 인간의 뉴런은 특정 자극 이상을 받을 때만 반응한다. 그 특정 자극의 세기를 '역치'라고 하는데, 이 역치 이상의 자극을 주면 반응을 한다. 이 역치의 역할을 하는 것이 바로 퍼셉트론에선 '활성화 함수'이다. 입력 데이터가 선형 함수에 대입 되고, 그 결괏값을 활성화 함수에 대입한다.
위 수학 표현식을 보면 선형함수의 결과가 0 이하이면 활성화 함수의 y값은 0이 되고, 선형함수의 결과가 0 초과이면 활성화 함수의 y값은 1이 된다.
2. 다층 퍼셉트론 (Multi Layer Perceptron)
과거 다층 퍼셉트론이 나오기 전에 단층 퍼셉트론으로 해결되는 문제들도 있었지만 결국 해결되지 않는 문제들 직면했다. 바로 XOR문제인데, 반복해서 말하지만 퍼셉트론은 선형함수와 활성화 함수의 조합이라고 했다. 그럼 단층 퍼셉트론은 하나의 선형함수를 가진다는 소리인데 그림 3을 보면 하나의 선으로 저 그래프의 결과를 분류할 수 있을까? 불가능하다. 이렇게 단층 퍼셉트론으로는 해결할 수 없는 XOR문제가 발견되어 다층 퍼셉트론 개념이 정의되었다.
다층퍼셉트론은 퍼셉트론들이 병렬적으로 구조되어 있는 한 층이 여러 층으로 이루어져 있는 것을 말한다. 다층 퍼셉트론을 도입해서 여러 개의 직선으로 XOR의 0과 1을 구분할 수 있게 되었기 때문에 딥러닝은 계속해서 발전할 수 있었다.
다층퍼셉트론의 입력층, 중간층, 출력층은 모두 하나의 레이어이지만 배우는 단계에서 받아들이기 쉽게 설명하기 위해서 따로 구분한 것이다. 데이터를 입력받는 입력층에서는 입력받을 데이터의 개수, 크기와 같이 입력 데이터에 대한 정보를 설정해야 한다. 안 하면 오류남. 중간층에서 다음 중간층으로 넘어가면서 모델이 결괏값을 예측하는 과정을 거쳐서 최종적으로 출력층에서 예측값이 나온다. 각 층마다 활성화 함수를 마음대로 설정할 수 있는데, 일반적으로 어떤 상황에선 어떤 활성화 함수를 사용해야 되는 게 정해져 있다. 활성화 함수에 대해서는 다음 포스팅에서 다루도록 하겠다.
'딥러닝 > 딥러닝 기초' 카테고리의 다른 글
[딥러닝] 딥러닝이란? (0) | 2023.09.25 |
---|