파이썬/파이썬 프로그래밍 새로비 2019. 9. 23. 23:39
| selenium(셀레늄)이란 selenium은 주로 웹앱을 테스트하는 웹 프레임워크입니다. 또한 webdriver의 API를 통해 브라우저를 제어하기 때문에 자바스크립트에 의해 동적으로 생성되는 사이트의 데이터를 크롤링할 때 매우 유용하게 사용되는 스크래핑 도구입니다. | selenium 사용법 selenium은 크롬이나 파이어폭스같은 각 브라우져의 webdriver API를 통해 브라우져를 제어합니다. 따라서 자신이 쓰고자 하는 브라우져의 driver를 다운로드받아서 Java나 C#, Python 같은 프로그래밍 언어를 통해 제어하는 것이 일반적입니다. 여기서는 크롬을 기준으로 사용법을 설명할 예정입니다. driver를 다운로드 받을 수 있는 곳은 아래와 같습니다. 여기서 주의해야 할 점은 크롬 브..
더 읽기
파이썬/파이썬 프로그래밍 새로비 2019. 9. 19. 22:40
안녕하세요. 개인적인 사정때문에 오랜만에 업로드하게 되네요. 최근에 부동산에 관심을 많이 가지게 되면서 부동산 공부 및 그와 관련된 데이터를 수집하는 일에 관심을 가지게 되었습니다. 데이터를 수집할 때 쉽게 이용할 수 있는 방법은 데이터의 바다인 웹에서 데이터를 가져오는 것인데요. 이 과정을 크롤링(crawling) 또는 스크래핑(scraping)이라고 합니다. 이번 포스팅에서는 제가 최근에 사용했던 크롤러 솔루션인 scrapy를 소개하고자 합니다. | 기존 크롤링할 때의 문제점 보통 크롤링을 할 때 수집할 데이터가 적은 경우에는 간단한 프로그래밍만으로도 원하는 데이터를 충분히 가져올 수 있습니다. 하지만 가져올 데이터양과 데이터를 소싱할 URL 수가 많아지면 크롤러의 소스 코드 수도 그만큼 복잡하고 길..