1. 개요
node.js를 이용하여 HTML 파서를 만들어보려고 한다.
2. 패키지 설치
먼저 다음의 2개 패키지를 설치합니다.
- request
- cheerio
$ npm install request $ npm install cheerio
3. 소스
간단히 sarc.io 웹 페이지 소스를 가져오는 프로그램입니다.
var cheerio = require('cheerio');
var request = require('request');
var url = 'http://sarc.io';
request(url, function(error, response, html){
if (error) {throw error};
console.log (html);
});
다음과 같이 실행합니다.
$ node parseHtml.js
4. 페이지 주소 처리
페이지 주소를 입력받는 방식으로 변경합니다.
var cheerio = require('cheerio');
var request = require('request');
var url = process.argv[2];
request(url, function(error, response, html){
if (error) {throw error};
console.log (html);
});
실행합니다.
$ node parseHtml.js http://sarc.io
5. 특정 ID 처리
특정 id에 해당하는 값만 가져옵니다. 아래 예제의 키 값은 kwho입니다.
var cheerio = require('cheerio');
var request = require('request');
console.log(process.argv);
var url = process.argv[2];
request(url, function(error, response, html){
if (error) {throw error};
var $ = cheerio.load(html);
$('#kwho').each(function(){
console.log("kwho : " + $(this).text());
})
});