본문 바로가기
Data Science

[Python] (Crawling) Selenium 사용해보기

by 은구잇 2021. 11. 30.
728x90

Selenium 이란?

웹 테스트 자동화 프레임 워크

다양한 언어에서 웹 드라이버를 통한 웹 자동화 테스트를 지원하는 라이브러리.

웹 자동화 테스트에서만 국한되는 것이 아니라 웹에서 자동화를 통한 다양한 작업을 할 수 있음.

구글크롬, 파이어폭스 등의 웹 드라이버를 통해 작동!

 

-> 셀리니움은 속도가 느리다는 점에서 사용 부분을 최소화하는것이 좋다.

 

BeautifulSoup 이란?

html 과 xml 문서를 Parsing 하기위한 패키지로 html에서 데이터를 추출하는데 유용한 구문 분석 트리를 생성.

 

 


1. selenium 과 크롬 드라이버 설치

우선 크롬 드라이버를 검색해서 다운받는다.

 

from selenium import webdriver

 

import 에러가 날 경우 라이브러리를 설치해준다.

pip install selenium

 

2. 크롬 드라이버 활용하기

맥 OS를 사용하고 있기때문에 경로가 아래와 같음.


from selenium import webdriver
driver = webdriver.Chrome('/usr/local/bin/chromedriver')

 

3. 웹 페이지 접속

url = 'https://www.naver.com/'
driver.get(url)

 

 

4. 해당 웹페이지 HTML 다운로드

html = driver.page_source

 

이후에는 beautifulsoup 을 이용해서 parsing해서 데이터를 수집해보면 된다.