728x90

이번에는 변수가 하나인 단순 선형 회귀를 살펴보자.

 

<그림1>

 

그림 1의 보라색 직선을 얻는 것이 최종 목표일 것이다.

 

위 모델에서 변수는 사이즈이다.

 

직선의 방정식은 y = b + ax 이므로 이를 바탕으로 식을 세운다.

 

이때의 식을 hypothesis 라 하며 (machine learning 분야에서 관습적으로 써왔다고 한다.)

 

간단하게 h(x)라고 표현하도록 한다.

 

 

이렇게 표현할 수 있다.

 

여기서 세타는 상수인데 현재 알지 못한다.

 

해서 세타값에 따라 이런 직선들이 그려진다.

 

 

<그림2>

 

<그림3>

 

따라서 위 그림3과 같은 모양이 나오는 최적의 세타0과 세타1을 찾는 것이 중요하다.

 

 

어떻게 해야 가장 공평한(?) 세타값을 찾을 수 있을까?

 

먼저 h(x)는 실제 가격 즉, 각 붉은 점들의 y값에 가까워야 한다는 것이다.

 

직선 위의 점들은     y - h(x)

 

직선 아래의 점들은  h(x) - y

 

를 모든 점( 데이터 셋 )에 대하여 수행한뒤 다 더하값이 최소화 될때 아마도 가장 최적화된 직선일 것이다.

 

이를 바탕으로 만든 식이 Cost Function 이다.

 

 

 

여기서 m은 데이터셋의 전체 데이터 수 이며, i는 각 데이터번호이며 그림1에서 집번호와 같다.

 

h(x) - y의 제곱을 취함으로써 음수를 배제하였고

 

1/2m을 곱한 이유는 찾아보니 미분시 편리함때문이고 나중에 나온다고 한다.

 

어쨌든 이 비용함수가 최소화 될때의 세타값을 취하면 된다.

728x90

'Machine Learning > coursera' 카테고리의 다른 글

Vectorization  (0) 2016.02.22
Gradient Descent  (1) 2016.02.08
Cost Function - Intuition  (2) 2016.02.08
Unsupervised Learning  (0) 2016.01.25
Supervised Learning  (0) 2016.01.23

+ Recent posts