找回密码
 立即注册
搜索
查看: 710|回复: 1

[面向对象] phpslider参数

[复制链接]

581

主题

110

回帖

4066

积分

管理员

积分
4066

众神之神

发表于 2022-1-23 12:56:47 | 显示全部楼层 |阅读模式
  1. $configs = array(
  2.     'name' => '糗事百科',        //定义当前爬虫名称,String类型 可选设置
  3.    
  4.     'log_show' => false,        //是否显示日,为true时显示调试信息,为false时显示爬取面板,布尔类型 可选设置
  5.    
  6.     'log_file' => data/qiushibaike.log,                 //日志文件路径,String类型 可选设置,
  7.    
  8.     'log_type' => 'error',                //显示和记录的日志类型,普通类型: info,警告类型: warn,调试类型: debug,错误类型: error,String类型 可选设置,log_type默认值为空,即显示和记录所有日志类型
  9.    
  10.     input_encoding' => 'GB2312',        //输入编码,明确指定输入的页面编码格式(UTF-8,GB2312,…..),防止出现乱码,如果设置null则自动识别,String类型 可选设置,input_encoding默认值为null,即程序自动识别页面编码
  11.    
  12.     'output_encoding' => 'GB2312',        //输出编码,明确指定输出的编码格式(UTF-8,GB2312,…..),防止出现乱码,如果设置null则为utf-8,String类型 可选设置,output_encoding默认值为utf-8, 如果数据库为gbk编码,请修改为gb2312

  13.     'tasknum' => 5,                //同时工作的爬虫任务数,需要配合redis保存采集任务数据,供进程间共享使用,整型 可选设置,tasknum默认值为1,即单进程任务爬取

  14.     'multiserver' => true,        //多服务器处理,需要配合redis来保存采集任务数据,供多服务器共享数据使用,布尔类型 可选设置multiserver默认值为false

  15.     'serverid' => 2,        //服务器ID,整型 可选设置,serverid默认值为1,

  16.     'save_running_state' => true,        //保存爬虫运行状态,需要配合redis来保存采集任务数据,供程序下次执行使用,注意:多任务处理和多服务器处理都会默认采用redis,可以不设置这个参数,布尔类型 可选设置,save_running_state默认值为false,即不保存爬虫运行状态

  17.         'queue_config' => array(        //redis配置,数组类型 可选设置,保存爬虫运行状态、多任务处理 和 多服务器处理 都需要redis来保存采集任务数据
  18.             'host'      => '127.0.0.1',
  19.             'port'      => 6379,
  20.             'pass'      => '',
  21.             'db'        => 5,
  22.             'prefix'    => 'phpspider',
  23.             'timeout'   => 30,
  24.         ),

  25.         'proxy' => array('http://host:port'),        //代理服务器,如果爬取的网站根据IP做了反爬虫, 可以设置此项

  26.         'interval' => 1000,                //爬虫爬取每个网页的时间间隔,单位:毫秒,整型 可选设置

  27.         'timeout' => 5,                //爬虫爬取每个网页的超时时间,单位:秒,整型 可选设置,timeout默认值为5秒

  28.         'max_try' => 5, // 重复爬取5次,        爬虫爬取每个网页失败后尝试次数,网络不好可能导致爬虫在超时时间内抓取失败, 可以设置此项允许爬虫重复爬取,整型 可选设置,max_try默认值为0,即不重复爬取,

  29.         'max_depth' => 5,        //爬虫爬取网页深度,超过深度的页面不再采集.对于抓取最新内容的增量更新,抓取好友的好友的好友这类型特别有用,整型 可选设置,默认值为0,即不限制

  30.         'max_fields' => 100,        //爬虫爬取内容网页最大条数,抓取到一定的字段后退出,抓取到一定的字段后退出,默认值为0,即不限制

  31.        
  32.     'domains' => array(
  33.         'qiushibaike.com',
  34.         'www.qiushibaike.com'
  35.     ),
  36.     'scan_urls' => array(
  37.         'http://www.qiushibaike.com/'
  38.     ),
  39.     'content_url_regexes' => array(
  40.         "http://www.qiushibaike.com/article/\d+"
  41.     ),
  42.     'list_url_regexes' => array(
  43.         "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
  44.     ),
  45.     'fields' => array(
  46.         array(
  47.             // 抽取内容页的文章内容
  48.             'name' => "article_content",
  49.             'selector' => "//*[@id='single-next-link']",
  50.             'required' => true
  51.         ),
  52.         array(
  53.             // 抽取内容页的文章作者
  54.             'name' => "article_author",
  55.             'selector' => "//div[contains(@class,'author')]//h2",
  56.             'required' => true
  57.         ),
  58.     ),
  59. );
  60. $spider = new phpspider($configs);
  61. $spider->start();
复制代码


581

主题

110

回帖

4066

积分

管理员

积分
4066

众神之神

 楼主| 发表于 2022-1-23 12:57:03 | 显示全部楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|十三博客 ( 鲁ICP备2023000528号 )

GMT+8, 2026-6-1 18:41 , Processed in 0.091692 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表