본문 바로가기
[크롤링 기초] 선택자 📌선택자란? HTML은 기본적으로 내용로 작성되어 시작과 끝이 하나의 쌍으로 구성되어 있고, 그 사이에 내용이 포함되는 구조인 것을 4일차에서 말했었다. 웹 페이지를 표현하는 데이터 모두가 태그로 이루어져 있기 때문에, 그 중에는 서로 동일한 태그가 존재할 것이다. 이렇게 동일한 태그를 분간해 주기 위해, HTML에서는 선택자라는 것을 사용해 각 태그를 구별할 수 있는, 일종의 주소를 부여 해 줄 수 있다. 📌선택자의 필요성 아래와 같은 HTML 문서가 있다고 가정해 볼 것이다. 해당 웹 페이지에서 언어(Language)와 관련된 데이터만 필요할 때, 태그로만 해당 데이터를 선택한다면 태그를 선택할 것이다. 하지만 태그에는 언어 정보 뿐만 아니라 프로젝트 정보(크롤링, 게임)도 포함된다. 파이썬 크롤링 .. 2022. 1. 16.
[크롤링 기초] HTML 구조 📌웹 페이지와 HTML 크롤링을 알기 위해서 먼저 웹 페이지에 대해서 알아야한다. 웹 페이지는 HTML을 기반으로 구성되어 있다. HTML(HyperText Markup Language)은 '마크로 둘러싸인 언어'라는 뜻으로, 웹 페이지의 구조를 나타내는 언어다. 웹 페이지에서 F12 를 눌러 개발자 도구 창을 열면 해당 페이지의 HTML 코드를 볼 수 있다. 정리하면, HTML이라는 문서를 통해 웹 페이지 구조를 파악할 수 있고, 이를 이용하여 원하는 데이터가 웹 페이지의 어디에 위치해 있는지 파악하여 수집하는 것이 크롤링의 핵심이다. 📌HTML 태그 HTML에 있는 각각의 구성 요소는 마크의 역할을 하는 '태그'로 감싸져 있다. HTML은 기본적으로 내용의 형태로 작성 된다. 시작과 끝이 하나의 쌍으.. 2022. 1. 13.
[크롤링 기초] 라이브러리와 크롤링 준비 (request, beautifulsoup4 맛보기) 📌라이브러리 크롤링을 하기 위해서는 라이브러리를 사용해야한다. 라이브러리란, 프로그래밍을 할 때 코드를 작성하지 않고 필요한 기능을 수행할 수 있도록 마련된 함수와 메소드의 집합이다. 이름에서 알 수 있듯 도서관(library)에서 책을 꺼내 보는 것처럼,우리가 필요한 기능과 동작이 미리 구현된 파이썬 라이브러리를 사용하면 된다. 물론, 파이썬 환경이 방대한 만큼 수십, 수만개의 라이브러리가 존재한다.하지만 모든 라이브러리를 알 필요가 없기 때문에, 어떠한 기능을 구현할 때 어떤 라이브러리를 사용해야 한다는 정도만 알면 된다 :) 📌정적 크롤링 이번 공부에서는 정적 크롤링을 할 때 파이썬의 requests와 beautifulsoup4(BeautifulSoup) 두 가지 라이브러리를 사용한다 :) ✅ re.. 2022. 1. 13.
[크롤링 기초] 크롤링의 종류 크롤링은 어떤 데이터를 크롤링 하는지에 따라 정적크롤링과 동적크롤링으로 나뉜다고 한다! 나는 크롤링은 그냥 크롤링인줄 알았다....바보...😭 📌정적 크롤링 정적 크롤링은 로그인과 같은 사전 작업 없이, 한 페이지 내부에서 원하는 데이터를 수집할 때 사용한다. 예를 들면 동영상 스트리밍 사이트의 인기 동영상과 같은 경우라고 생각하면 된다 ! 즉, 주소를 통해 데이터를 요청하고, 결과를 받는것이 정적 크롤링이다. 한 페이지 내에서 모든 작업이 이루어지기 때문에 속도가 매우 빠르다! 하지만, 주소를 통해 데이터를 받기 때문에 로그인 -> 페이지 이동 -> 클릭 -> 데이터 수집 과 같은 연속적인 작업을 수행할 수는 없다..😥 따라서 연속적인 작업이 조금이라도 필요한 경우에는 적용이 힘들기 때문에 수집 대상에.. 2022. 1. 13.
[크롤링 기초] 크롤링이란? 📌크롤링이란? '크롤링'이란 쉽게 말하면, 인터넷상의 데이터를 수집, 저장, 가공하는 자동화된 기술이다. 📌크롤링의 중요성 크롤링은 업무 자동화로 인한 업무 효율화가 가장 큰 장점이다. 지루하고 의미없는 반복이 필요한 업무를 컴퓨터가 대신 해주는 것이다 :) 예를 들어, 우리는 종종 네이버에 키보드를 검색하면 네이버 쇼핑에 다양한 키보드 판매 사이트가 나온다.이 중 최저 가격 TOP 1000 를 조사하고 싶다면 직접 복사-붙여넣기를 하기엔 너무 많은 양이다.때문에 우리는 크롤링을 이용하여 복잡한 구조로 숨겨진 데이터를 수집하고, 정제해서 사용할 수 있다. 2022. 1. 10.