머신러닝의 정의, 학습 종류를 배우다.
1. 머신러닝
머신러닝 : 2D, 표 형태의 데이터에서 규칙을 찾아내는 과정
사용하는 데이터를 기반으로 학습 또는 성능 향상을 지원하는데에 초점을 둔다.
2. 머신러닝 학습 종류
머신러닝의 학습 종류를 알기 전에 머신러닝에서 사용되는 X, y에 대해서 알아보자. 대소문자 구별
X는 문제데이터, 특성, feature, 독립변수, 속성과 같은 의미를 지닌다.y는 정답데이터, target, Label, 종속변수과 같은 의미를 지닌다.X는 테스트, y는 검증하는 데이터라고 생각하면 편하다.
1. 지도 학습
문제와 정답을 주고 학습시킨다. 사람이 직접 데이터에 개입하므로 정확도가 높은 데이터를 사용할 수 있다.
대신 사람이 직접 해야하기때문에 인건비 문제가 있고, 데이터 양도 적다.
지도 학습 안에서 또 2가지 방법이 있는데 '분류'와 '회귀'이다.
- 분류
분류는 정답데이터 (y)가 범주형 데이터 (문자형데이터)로 구성되어있고 정답의 종류가 정해져 있다.
ex) 혈액형 (A, B , O, AB)
미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것이다.
- 회귀
회귀는 정답데이터가 직선 ,이차함수인 수치 데이터로 구성된다. 따라서 정답의 종류가 정해져 있지 않다.연속적인 숫자를 예측하는 것이므로 예측 값의 미묘한 차이가 크게 중요하지 않다.
2. 비지도 학습
비지도 학습은 문제만 주고 학습을 시킨다. 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터을 학습시키는 방법, 컴퓨터가 스스로 문제가 가지고 있는 숨겨진 특징(규칙)을 찾아낸다
비지도 학습에는 클러스터링과 차원축소 방법이 있다.
- 클러스터링
데이터를 비슷한 특성끼리 그룹화하는 방법이다. 주로 사용하는 상황은 추천시스템, 타겟 마케팅, 고객 분류등이있다.
- 차원축소
가지고 있는 데이터의 차원을 줄여서 데이터는 작아지지만 차원 축소를 하면서 의미있는 데이터가 남는다.
주로 사용하는 상황은 특징 추출, 구조 발견, 의미 압축, 빅데이터 시각화
3. 강화학습
강화학습은 지도학습과 유사하나 정확한 정답이 없다. 문제와 정확하지 않은 정답을 학습한다.
컴퓨터가 현재 상황에서 어떤 행동을 취하는 것이 최적인지 주어진 상황을 반복하면서 학습한다.특정 행동을 취할 때마다 외부 환경에서 보상이나 벌점이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습한다.미래를 고려하면서 가장 현명한 선택이 무엇인지 실시간으로 학습한다.주로 사용하는 상황은 실시간 의사결정, 로봇 탐색, 학습 과제 결정, 기술 습득, 게임 AI 등이 있다.
앞으로 머신러닝을 배우면서 사용하는 환경과 라이브러리는 다음과 같다환경 : jupyter Notebook라이브러리 : pandas, scikit-learn
- scikit-learn 파이썬에서 쉽게 사용할 수 있는 머신러닝 프레임, 라이브러리이다.회귀, 분류, 군집, 차원축소, 특성공학, 전처리, 교차검증, 파이프라인 등 머신러닝에 필요한 기능을 갖추었다.학습을 위한 샘플 데이터도 제공한다.
'머신러닝' 카테고리의 다른 글
[머신러닝] 결정 트리 버섯데이터 실습 (One-hot 인코딩) (0) | 2023.08.25 |
---|---|
[머신러닝] 머신러닝 Decision Tree(결정 트리) 모델 (0) | 2023.08.24 |
[머신러닝] KNN모델 - Iris 붓꽃 품종 분류 실습 (일반화, 과대적합, 과소적합) (0) | 2023.08.24 |
[머신러닝] KNN모델과 지도학습(일반화, 과대적합, 과소적합) (0) | 2023.08.23 |
[머신러닝] BMI 실습 (지도학습) (1) | 2023.08.22 |