小虾虎鱼

小虾虎鱼

基于nodejs的网页版爬虫工具node-webcrawler

作者 禾惠 发表于 2015/03/06,最后修改于 2015/03/06

前些日子看到开源中国出现了很多的爬妹子图片的代码,出现了好几种语言的写法,其中肯定也少不了nodejs的。正好自己最近一直在学nodejs,于是自己也想写一个。

写的第一个版本(node-crawler)的爬虫可在网页中和shell中显示抓取的情况,但需要在配置文件里面修改所需要抓取的规则。如果每次都需要这样修改代码就会觉得很麻烦,于是决定将第一个版本进行重构。

由于重构后的版本与第一版本的功能变更较多,去掉了shell中显示,所以直接将该版本命名为node-webcrawler,另起门户了。

node-webcrawler使用方法

  1. https://github.com/satrong/node-webcrawler下载源代码
  2. 执行npm install安装依赖模块
  3. 执行node index.js启动程序
  4. 在浏览器中打开shell中提示的地址,按照页面提示进行操作

最简单的使用方法(只支持Windows)

  1. http://pan.baidu.com/s/1jGYFEYE下载压缩包(注:压缩包中已经集成了nodejs,无需搭建nodejs环境即可运行)
  2. 解压压缩包,双击start.bat
  3. 在浏览器中打开cmd中提示的地址,按照页面提示进行操作

提示:建议直接去github中下载源码,不保证网盘的代码能与github同步。