728x90
이번에는 변수가 하나인 단순 선형 회귀를 살펴보자.
<그림1>
그림 1의 보라색 직선을 얻는 것이 최종 목표일 것이다.
위 모델에서 변수는 사이즈이다.
직선의 방정식은 y = b + ax 이므로 이를 바탕으로 식을 세운다.
이때의 식을 hypothesis 라 하며 (machine learning 분야에서 관습적으로 써왔다고 한다.)
간단하게 h(x)라고 표현하도록 한다.
이렇게 표현할 수 있다.
여기서 세타는 상수인데 현재 알지 못한다.
해서 세타값에 따라 이런 직선들이 그려진다.
<그림2>
<그림3>
따라서 위 그림3과 같은 모양이 나오는 최적의 세타0과 세타1을 찾는 것이 중요하다.
어떻게 해야 가장 공평한(?) 세타값을 찾을 수 있을까?
먼저 h(x)는 실제 가격 즉, 각 붉은 점들의 y값에 가까워야 한다는 것이다.
직선 위의 점들은 y - h(x)
직선 아래의 점들은 h(x) - y
를 모든 점( 데이터 셋 )에 대하여 수행한뒤 다 더하값이 최소화 될때 아마도 가장 최적화된 직선일 것이다.
이를 바탕으로 만든 식이 Cost Function 이다.
여기서 m은 데이터셋의 전체 데이터 수 이며, i는 각 데이터번호이며 그림1에서 집번호와 같다.
h(x) - y의 제곱을 취함으로써 음수를 배제하였고
1/2m을 곱한 이유는 찾아보니 미분시 편리함때문이고 나중에 나온다고 한다.
어쨌든 이 비용함수가 최소화 될때의 세타값을 취하면 된다.
728x90
'Machine Learning > coursera' 카테고리의 다른 글
Vectorization (0) | 2016.02.22 |
---|---|
Gradient Descent (1) | 2016.02.08 |
Cost Function - Intuition (2) | 2016.02.08 |
Unsupervised Learning (0) | 2016.01.25 |
Supervised Learning (0) | 2016.01.23 |