博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
CentOS7之Scrapy爬虫部署
阅读量:6911 次
发布时间:2019-06-27

本文共 3158 字,大约阅读时间需要 10 分钟。

安装:

sudo pip install scrapyd

配置:

#文件~/.scrapyd.conf#内容如下:[scrapyd]eggs_dir    = /home/sirius/scrapyd/eggslogs_dir    = /home/sirius/scrapyd/logsitems_dir   = /home/sirius/scrapyd/itemsjobs_to_keep = 5dbs_dir     = /home/sirius/scrapyd/dbsmax_proc    = 0max_proc_per_cpu = 4finished_to_keep = 50poll_interval = 5bind_address = 0.0.0.0http_port   = 6800debug       = offrunner      = scrapyd.runnerapplication = scrapyd.app.applicationlauncher    = scrapyd.launcher.Launcherwebroot     = scrapyd.website.Root[services]schedule.json     = scrapyd.webservice.Schedulecancel.json       = scrapyd.webservice.Canceladdversion.json   = scrapyd.webservice.AddVersionlistprojects.json = scrapyd.webservice.ListProjectslistversions.json = scrapyd.webservice.ListVersionslistspiders.json  = scrapyd.webservice.ListSpidersdelproject.json   = scrapyd.webservice.DeleteProjectdelversion.json   = scrapyd.webservice.DeleteVersionlistjobs.json     = scrapyd.webservice.ListJobs#daemonstatus.json = scrapyd.webservice.DaemonStatus

守护进程,用这个的原因实在是因为scrapyd太脆弱了,一看不住就挂了

安装:

sudo pip install supervisor

配置:

sudo mkdir -p /etc/supervisor/#导入默认配置sudo su - root -c "echo_supervisord_conf > /etc/supervisor/supervisord.conf"#链接管理[inet_http_server]         ; inet (TCP) server disabled by defaultport=127.0.0.1:9001        ; (ip_address:port specifier, *:port for all iface);username=user              ; (default is no username (open server));password=123               ; (default is no password (open server))  [supervisorctl];serverurl=unix:///tmp/supervisor.sock ; use a unix:// URL  for a unix socketserverurl=http://127.0.0.1:9001 ; use an http:// url to specify an inet socket;username=chris              ; should be same as http_username if set;password=123                ; should be same as http_password if set;prompt=mysupervisor         ; cmd line prompt (default "supervisor");history_file=~/.sc_history  ; use readline history if available#设置管理进程[program:scrapyd]command=scrapydautostart=trueautorestart=unexpected

`创建文件/usr/lib/systemd/system/supervisord.service内容如下:[Unit]                                                              Description=supervisord - Supervisor process control system for UNIXDocumentation=http://supervisord.org                                After=network.target                                                [Service]                                                           Type=forking                                                        ExecStart=/usr/bin/supervisord -c /etc/supervisor/supervisord.conf             ExecReload=/usr/bin/supervisorctl reload                            ExecStop=/usr/bin/supervisorctl shutdown                            User=
[Install] WantedBy=multi-user.target#启动sudo systemctl enable supervisordsudo systemctl start supervisord#查看supervisorctl#如一切正常|>$ scrapyd RUNNING pid 8059, uptime 0:02:02
#常用命令status #查看状态reload #重新载入restart scrapyd #重启任务update #可以更新 supervisor 配置tail -f scrapyd stderr #检查日志

爬虫部署:

:

cd 
<项目目录>
scrapyd-deploy

:

curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

转载地址:http://orfcl.baihongyu.com/

你可能感兴趣的文章
Pivot Table系列之切片器 (Slicer)
查看>>
windows下安装mysql5.6及基本命令
查看>>
jsp的九个内置对象简介
查看>>
用户如何获得***服务---步骤与效果
查看>>
学习沟通技巧--- SOFTEN法则与SOLER法则
查看>>
用户密码重设对EFS的影响
查看>>
基于mdrill的大数据分析
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
gitlab web hooks 应用
查看>>
STM32的停机模式与唤醒
查看>>
安全运维之端口安全
查看>>
【转载】什么是站点,Active Directory系列之十一
查看>>
Red Hat Enterprise Liunx6 配置apache 全攻略
查看>>
CentOS 5.5下LVM的分区管理
查看>>
[Template]HTML Template 简介
查看>>
用传统的NAT方式替代H3C的DNS-MAP功能
查看>>
我的友情链接
查看>>
mysql数据(一)
查看>>
jeecg查询条件组装器使用or关键字
查看>>