一个针对批量网页定向提取的采集器,例如,采集某个站点所有分类的文章,某个视频站所有视频详情, etc.
curler 网页采集器使用说明
1.配置好apache+php环境,安装php curl扩展并开启.
2.下载该程序源码包,并放置于web服务器根目录(压缩包中u148文件夹为示例代码).
3.新建站点文件夹,例如要抓取u148.net 文字分类的网页,则在程序根目录新建目录u148,u148目录下新建word.
4.拷贝u148/word下config.php,Main.php到站点文件夹下,并修改config中抓取配置和Main.php中命名空间.
5.修改程序根目录下doit.php $site变量,以及抓取的执行步骤,默认已经写好.
6.运行doit.php即可执行抓取程序.
也可以将doit.php加入crontab,这样它就可以每天定时执行抓取了