CURLER – 您身边的WEB采集专家

一个针对批量网页定向提取的采集器，例如，采集某个站点所有分类的文章，某个视频站所有视频详情, etc.

curler 网页采集器使用说明

1.配置好apache+php环境，安装php curl扩展并开启.

2.下载该程序源码包，并放置于web服务器根目录（压缩包中u148文件夹为示例代码）.

3.新建站点文件夹，例如要抓取u148.net 文字分类的网页，则在程序根目录新建目录u148，u148目录下新建word.

4.拷贝u148/word下config.php，Main.php到站点文件夹下，并修改config中抓取配置和Main.php中命名空间.

5.修改程序根目录下doit.php $site变量，以及抓取的执行步骤，默认已经写好.

6.运行doit.php即可执行抓取程序.

也可以将doit.php加入crontab，这样它就可以每天定时执行抓取了

小笙's Blog