What is Supervised Learning?
우리말로 '지도 학습'이라 하며
학습 데이터의 'right answers'가 주어진다.
supervised learning에서
주어진 입력들을 연속적인 값으로 추정할때 regression (회귀 분석)을 사용하며
주어진 입력들을 discrete(별개의) 값으로 '분류'할때 Classification (분류)를 사용한다.
Regression
<그림1>
위 그림1에서 볼 수 있듯이 집 크기에 따른 가격의 예측이다.
집 가격의 요인에는 크기뿐만아니라 방 개수, 마당 유무, 주택이나 아파트나 등등 많은 요인이 있지만
여기서는 간단하게 크기(넓이)만 따졌다. 해서 입력 데이터는 Size이다.
이미 있는 실제 데이터(superviesed learning이니까)를 기반으로 보라색처럼 직선으로 추정하면
750 feet제곱일때 예상 가격은 15만 달러정도이며, 파란색과 같은 곡선 추정할때에 예상가격은 20만 달러정도이다.
이러한 과정을 Regression (회귀 분석)이라 한다.
Classification
<그림2-1>
이번에는 분류를 보자. 분류의 경우 결과가 연속성이 없고 별개의 값으로 나뉜다.
Tumor(종양) Size가 입력으로 들어왔다. 그리고 Malignant(악성)인지 아닌지로 분류하였다.
근데 만약 내가 종양이 발견되었고 종양의 크기를 알때에 악성인지 악성이 아닌지
그래프에서 Tumor Size축의 중간쯤에 위치하면 판단하기 어렵다. 입력을 하나 더 늘려보자.
<그림2-2>
나이축을 추가하여 그래프에 표시하면 이런 모양이 나올 것이다.
만약 나의 종양 크기가 그래프에서 축위 보라색 화살표이고 나이도 축위 보라색 화살표 일때
양성그룹에 속하므로 양성일 가능성이 커서 안심할 수 있다.
이렇듯 Classification은 주어진입력들을 별개의 값으로 분류 한다. 해서
그림2-2에서 최적화된 검은직선을 찾는 게 중요하다.
'Machine Learning > coursera' 카테고리의 다른 글
Vectorization (0) | 2016.02.22 |
---|---|
Gradient Descent (1) | 2016.02.08 |
Cost Function - Intuition (2) | 2016.02.08 |
Linear Regression with one variable - Cost Function (0) | 2016.01.25 |
Unsupervised Learning (0) | 2016.01.25 |