CURLER – 您身边的WEB采集专家

一个针对批量网页定向提取的采集器,例如,采集某个站点所有分类的文章,某个视频站所有视频详情, etc.

curler 网页采集器使用说明

1.配置好apache+php环境,安装php curl扩展并开启.

2.下载该程序源码包,并放置于web服务器根目录(压缩包中u148文件夹为示例代码).

3.新建站点文件夹,例如要抓取u148.net 文字分类的网页,则在程序根目录新建目录u148,u148目录下新建word.

4.拷贝u148/word下config.php,Main.php到站点文件夹下,并修改config中抓取配置和Main.php中命名空间.

5.修改程序根目录下doit.php $site变量,以及抓取的执行步骤,默认已经写好.

6.运行doit.php即可执行抓取程序.

也可以将doit.php加入crontab,这样它就可以每天定时执行抓取了

站点介绍:http://curler.xstudio.me/

下载地址:http://pan.baidu.com/s/1qWLjPRQ

发表评论

电子邮件地址不会被公开。 必填项已用*标注