반응형

[Python 재무제표 크롤링 #1] 파이썬 크롤링(Python Crawling)

반응형


| Python(파이썬)


파이썬(Python)은 귀도 반 로섬(Guido van Rossum) 네덜란드 아저씨가 만든 인터프리터 언어입니다. 문법이 매우 간결하고 직관적으로 설계되어 있고 거기에 풍부한 라이브러리, 효율적인 자료구조 등 여러 좋은 장점이 많은 언어입니다. Tensorflow같은 인공지능 라이브러리나 나 Numpy같은 수치해석 라이브러리의 힘을 토대로 데이터 사이언스, AI 분야에서 매우 핫한 언어죠. 


| Web Crawling(웹 크롤링)


Web Crawling(웹 크롤링)은 프로그램을 통해 인터넷 상에 있는 웹 페이지들의 데이터들을 추출하는 것을 의미합니다. 방대한 양의 웹 페이지들의 데이터들 프로그램을 통해 긁어모아 원하는 데이터셋을 구축하고 그 데이터셋을 통해 유의미한 정보나 결과를 추출하기 위해 데이터 분석을 하기 위함이죠. 


| Python Crawling(파이썬 크롤링)


파이썬은 간결한 문법 및 효율적인 자료 구조, 풍부한 관련된 라이브러리 덕분에 크롤링할 때 사용하기 매우 적합한 언어입니다. 쓰시다 보면 그 심플함과 편안함에 탄사를 금치 못하는 순간이 찾아오게 되어있습니다. 


크롤링할 때 가장 힘든 부분은 데이터를 적합하게 가져오는 것 뿐만 아니라 주로 HTML문서 형태로 오는 데이터를 구문 분석(Parsing)하고 원하는 데이터를 뽑아내는 일입니다. 파이썬은 이러한 작업을 쉽고 간단하게 처리할 수 있으며 웹 크롤링을 하는 프로그램, 웹 크롤러를 만드는 사람들에게 큰 부담을 덜어줍니다. 


이번 포스팅을 포함하여 다음 포스팅들 에서는 파이썬으로 어떻게 크롤링 하는 지를 '네이버 금융'에 있는 상장 주식들의 재무제표를 크롤링 하는 방법을 다룰 예정입니다.


반응형

이 글을 공유하기

댓글

Designed by JB FACTORY