데이터 분석을 위해서는 데이터 수집이 필수이다. 데이터 수집을 할 때 크롤링이라는 걸 해야한다.
크롤링이란, 웹 페이지에 있는 데이터를 추출해내는 행위이다. 이는 파이썬의 Selenium(셀레니움)이라는 웹앱을 자동으로 움직여주는 프레임워크를 사용하여 추출해낼 수 있다.
크롤링을 하기 위해서는 먼저 Selenium이 설치 되어 있어야 한다.
[Selenium 설치 방법]
- 먼저 파이썬이 설치된 곳으로 가자. 설치된 폴더에 가면 Scripts란 폴더가 있다. 그곳에 들어가서 pip가 정상적으로 설치되어 있는지 확인해야 한다.
Scripts 폴더 안에 pip가 정상적으로 설치 되어있다면 Selenium을 설치할 준비가 된 것이다. 본격적으로 Selenium을 설치해보자.
2. 먼저 cmd에 관리자 권한으로 접속해서 위에서 언급한 Python이 설치된 경로에 Scripts 폴더까지의 경로(pip가 위치한 경로)로 이동해보자.
3. 이동한 후에는 pip 명령어를 사용하여 셀레니움을 설치해준다. 명령어는 다음과 같다.
4. 위의 명령어를 실행했을 때 Successfully installed selenium이 뜬다면 설치성공이다.
5. Selenium은 webdriver로 웹 브라우저를 제어할 수 있다. 여기서는 크롬 브라우저를 제어해볼 것이다. 크롬 드라이버를 설치해보자.
이 곳에서 크롬 드라이버를 다운로드 할 수 있다.
초록색으로 표시 된 ChromDriver 2.38을 클릭하면 다음과 같은 창이 뜰 것이다.
자신의 OS에 따라 다운로드 받아주면 된다.
(linux64는 리눅스, mac64는 MAC OS, win32는 윈도우 )
다운로드 후, 압축을 해제하면 다음과 같은 파일이 나온다.
이렇게 하면 크롬 드라이버 다운로드까지 완료된다. 이 때, 크롬 드라이버가 설치된 경로를 알고 있어야 한다. Selenium 객체를 생성할 때 경로를 지정해 주어야 되기 때문이다.
설치에 성공했으니, 이를 사용하여 크롤링을 해봐야 할 것이다. 다음편에서는 사용하는 방법에 대해 알아보자.