본 포스팅은 edwith BoostCourse에서 ‘머신러닝을 위한 파이썬’ 강의를 듣고 한 포스팅입니다.
머신러닝이란?
머신러닝이란 기존에 있던 데이터를 어떤 알고리즘에 사용해서 모델을 만들고, 새로운 데이터를 모델에 적용시켜 예측을 하는 방법이다.
- Example
왓챠의 ‘보고싶어요’ 개수를 가지고 총 관객수를 예측한 사례가 있다. 기존에 있던 데이터인 마션, 킹스맨, 시빌 워, 인터스텔라의 ‘보고싶어요’ 개수와 새로운 데이터인 옥자의 ‘보고싶어요’수로 옥자의 총 관객 수를 머신러닝 기법 중 하나인 ‘회귀 분석’으로 예측했다. 위 그래프를 보면 선형인 것을 알 수 있는데, 흔히 선형이라고 하면 y = ax + b와 같은 형태로 표현할 수 있다. 여기서 x는 ‘보고싶어요’ 수일 것이고, y는 총 관객수 일 것이다. 우리는 여기서 a와 b가 궁금한 것이다.
2. Key concepts
Model?
모델이라는 것은 예측을 위한 수학 공식, 함수, 1차 방정식, 확률분포 등등을 말한다. 위에서 본 y = ax + b와 같은 것이 모델이다.
Algorithms?
알고리즘은 어떠한 문제를 풀기 위한 과정인데, 모델을 생성하기 위한 과정이라고도 볼 수 있다.
3. 모델을 학습할 때 영향을 주는 것들
y = ax + b에서 x는 주어진 x 값, 즉 독립 변수이고 y는 주어진 y값, 즉 종속변수이다. 우리는 a와 b를 알고리즘을 통해 최적값을 찾아야한다.
4. Y값에 영향을 주는 X값은 하나인가?
실제로 y = ax + b 그 자체를 보면 x값 하나에 따라서 y의 값은 변화한다. 그러나 실제로 데이터를 가지고 모델을 만들 때는, y값에 영향을 주는 x값은 하나가 아닐 수 있다. 보통은 여러 개의 x값에서 영향을 받아 y값에 영향을 주게 된다. 예를 들어, 영화의 흥행을 예측한다고 생각하면 영화의 흥행 요소는 여러 가지 일 수 있다. 배우가 얼마나 유명하 배우인지, 마케팅을 얼마나 잘 했는지, 감독이 유명한 감독인지 등등 흥행값에 영향을 주는 요소는 상당히 많다. 우리는 실제로 데이터 분석을 할 때 이런 요인들과 많이 마주칠 것이다. 그래서 1 이상의 x 변수, 1개의 y 변수가 있다고 하면 x변수의 실제 데이터를 feature라고 한다. feature는 머신러닝에서 데이터의 특징을 나타내는 변수이다. 통계에서는 feature를 독립변수라고 부르기도 하고, 컴퓨터공학에서는 input 변수라고 부르기도 한다. 이들은 모두 동일한 의미로 사용된다. 일반적으로 데이터 테이블 상에 column을 feature라고 보면 된다.
5. Feature Vector
그래서 결국 우리가 컴퓨터로부터 알아내고자 하는 것은, 여러개의 x 변수와 하나의 y변수가 있을 때, 그 앞에 계수를 알아내는 것이다. 앞에서 봤던 y = ax + b에서 a와 b를 알아내는 것이다. 이것은 feature vector로 컴퓨터가 알아내서 모델을 만들어내게 된다. 그래서 우리가 x와 x 앞의 계수들을 리스트 형태로 넣어줄 수 있으면 y의 값을 알아 낼 수 있다.