Categories

  • posts

Tags

  • NodeJS

request와 cheerio를 이용한 웹페이지 크롤링

request 모듈 : 웹 페이지를 받아오는 모듈

cheerio 모듈 : HTML 문자열을 jQuery 객체로 만들어주는 모듈

HTML 데이터를 request로 가져오고, 크롤링 한 HTML 데이터를 파싱하기 위해 cheerio를 사용한다.

request 와 cheerio 모듈 설치

npm install request && install cheerio

긁어올 html파일 구조

<div>
    <li class="web_page_list">
        <p class="number">0000</p>
        <p class="name">test</p>
    </li>
</div>

js파일

//모듈 추출
var request = require('request');
var cheerio = require('cheerio');

//request 모듈 사용
var url = '웹페이지주소';
request(url, function(err, response, body){
    //변수 선언
    var $ = jQuery = cheerio.load(body);

    //데이터 추출
    $('.web_page_list').each(function(item){

        var number = $(this).find('.number').text().trim();
        var name = $(this).find('.name').text().trim();
        console.log(number);
        console.log(name);
        
    })
});