找回密码
 立即注册
搜索
查看: 828|回复: 1

[基础语法] phpspider爬取页面,保存爬虫状态,供程序下次执行使用(...

[复制链接]

581

主题

110

回帖

4066

积分

管理员

积分
4066

众神之神

发表于 2022-1-26 11:41:56 | 显示全部楼层 |阅读模式
phpspider爬取页面,保存爬虫状态,供程序下次执行使用(不重复采集数据)


官方文档:

一下配置在$configs数组之中:


save_running_state
保存爬虫运行状态
需要配合redis来保存采集任务数据,供程序下次执行使用
注意:多任务处理和多服务器处理都会默认采用redis,可以不设置这个参数
布尔类型 可选设置
save_running_state 默认值为false,即不保存爬虫运行状态
demo:
  1. 'save_running_state' => true
复制代码


queue_config
redis配置
数组类型 可选设置
保存爬虫运行状态、多任务处理 和 多服务器处理 都需要redis来保存采集任务数据
demo:
  1. 'queue_config' => array(
  2.     'host'      => '127.0.0.1',        //绑定IP
  3.     'port'      => 6379,                //redis端口,如果有问题,可查看安全组端后是否加入白名单放行
  4.     'pass'      => '',                        //默认是空
  5.     'db'        => 5,                        //数据库数量
  6.     'prefix'    => 'phpspider',        //表前缀,自定义
  7.     'timeout'   => 30,        //空闲连接超时时间,0表示不断开
  8. )
复制代码



服务器配合宝塔配置使用:

1,宝塔软件商店安装Redis;

2,找到正在使用的php版本=》安装扩展=》redis,安装完毕后重启php;

3,宝塔软件商店安装redis数据管理工具,先设置配置,保存配置后,即可查看和管理redis库;




581

主题

110

回帖

4066

积分

管理员

积分
4066

众神之神

 楼主| 发表于 2022-1-26 14:59:52 | 显示全部楼层
可以在宝塔下创建自动执行的shell

  1. php /xx/xx/xxx/xxx.php
复制代码
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|十三博客 ( 鲁ICP备2023000528号 )

GMT+8, 2026-6-1 18:35 , Processed in 0.080067 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表