본문 바로가기

Computer Science/Crawling with Python

(2)
크롤링 기본 더보기 목차 1. 파이썬 오픈소스 패키지 사용 2. 파이썬으로 데이터 수집하기 3. 안티크롤링, 헤더값 추가하기 4. URL과 요청값 이해하기 1. 오픈소스 패키지 파이썬은 오픈소스 프로그래밍 언어로 누구나 사용, 수정, 재배포 할 수 있습니다. 파이썬이 강력한 이유는 개발자들이 파이썬을 통해 유용한 도구들을 개발해 놓았기 때문입니다. ex) django - 장고는 파이썬으로 웹개발을 할 수 있는 패키지입니다. 인스타그램, 유튜브 등 ex) flask - 장고보다 가벼우나 숙련자가 사용하기 좋습니다. 핀터레스트 ex) pandas - 표 형태의 데이터를 쉽게 다룰 수 있는 패키지입니다. 데이터 수집, 분석에 자주 사용 ex) request - 웹상의 데이터를 가져올 수 있게 하는 패키지 ex) beaut..
웹페이지의 구성에 대하여 * 코알라 스터디 1주차 내용 HTML의 개념 이해하기 우리가 쉽게 사용하는 포털 사이트들의 홈페이지는 HTML 이라는 웹문서로 구성되어있고, 이 웹문서를 인터넷 브라우저(인터넷 익스플로러, 크롬, 파이어 폭스 등)로 실행하면 익숙한 홈페이지의 모습으로 나타나게 됩니다. *웹브라우저에서 마우스 오른쪽 클릭 후 를 클릭하면 페이지의 소스코드를 확인할 수 있습니다. ​ 이 HTML이라는 웹문서 안에 우리가 수집하기를 원하는 데이터가 저장되어 있습니다. 데이터 수집은 바로 이 웹뭉서 어딘가에 저장되어 있는 데이터를 찾아 저장하는 것입니다. ​ 초간단 웹문서(HTML) 만들기 메모장으로도 간단하게 HTML 문서를 만들 수 있는데요. 메모장을 켜 "Hello World!"라고 적어봅시다. 그리고 저장할 때 확장자..