|
phpspider爬取页面,保存爬虫状态,供程序下次执行使用(不重复采集数据)
官方文档:
一下配置在$configs数组之中:
save_running_state
保存爬虫运行状态
需要配合redis来保存采集任务数据,供程序下次执行使用
注意:多任务处理和多服务器处理都会默认采用redis,可以不设置这个参数
布尔类型 可选设置
save_running_state 默认值为false,即不保存爬虫运行状态
demo:
- 'save_running_state' => true
复制代码
queue_config
redis配置
数组类型 可选设置
保存爬虫运行状态、多任务处理 和 多服务器处理 都需要redis来保存采集任务数据
demo:
- 'queue_config' => array(
- 'host' => '127.0.0.1', //绑定IP
- 'port' => 6379, //redis端口,如果有问题,可查看安全组端后是否加入白名单放行
- 'pass' => '', //默认是空
- 'db' => 5, //数据库数量
- 'prefix' => 'phpspider', //表前缀,自定义
- 'timeout' => 30, //空闲连接超时时间,0表示不断开
- )
复制代码
服务器配合宝塔配置使用:
1,宝塔软件商店安装Redis;
2,找到正在使用的php版本=》安装扩展=》redis,安装完毕后重启php;
3,宝塔软件商店安装redis数据管理工具,先设置配置,保存配置后,即可查看和管理redis库;
|