开发者

python爬虫之scrapy框架详解

开发者 https://www.devze.com 2022-12-05 12:06 出处：网络作者：可小v.

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中

相关专题：python scrapy框架

1.在pycharm下安装scrapy函数库
2.将安装好scrapy函数库下的路径配置到系统path的环境变量中
3.打开cmd终端输入：scrapy.exe检查是否安装成功
4.创建一个项目：scrapy startproject 项目名字
5.cd进入该目录下，创建一个spider：scrapy genspider 项目名字 网址
6.编辑settings.py文件中的USER_AGENT选项为正常的浏览器头部
7.执行这个spider：scrapy crawl 项目名字
8.如果遇到因pip版本太低导致安装不了scarpy函数库，可以先在cmd窗口输入py -m pip install --upgrade pip升级命令（前提是你的python环境下得有pip，可通过输入pip命令查看是否已安装，如未安装http://www.cppcns.com得去官网下载并解压至相应路径）

代码示例命令截图:

python爬虫之scrapy框架详解

项目文件截图：

python爬虫之scrapy框架详解

settings.py文件截图：（需要修改爬取网站的USER_AGENT）

python爬虫之scrapy框架详解

scrapy运行工作流程图:

Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Schedulwww.cppcns.comer(调度器)

Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader(下载器)：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理

ItemPipeline(管道):它负责http://www.cppcns.com处理Spider中获取到的Item编程客栈，并进行进行后期处理（详细分析、过滤、存储等）的地方编程客栈.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间

通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

python爬虫之scrapy框架详解

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注我们的更多内容!

0

0

0

上一篇:两个很实用的Python装饰器详解

python六种基本数据类型及常用函数展示:下一篇

精彩评论

暂无评论...

登录注册

请自觉遵守互联网相关的政策法规，严禁发布色情、暴力、反动的言论！

验证码：

验证码

取消

关注公众号

热门标签

图文推荐

mysql字符集引起的java.sql.SQLException:Incorrect string value:问题

mysql字符集引起的java.sql.SQLException:Incorrect string value:问题

解决Feign异步调用丢失上下文问题

解决Feign异步调用丢失上下文问题

一文教会你使用Python来下一场雪

一文教会你使用Python来下一场雪

利用python调整Excel行高和列宽的操作示例

利用python调整Excel行高和列宽的操作示例

Python字符串检索方式

Python字符串检索方式

Android中常见内存泄漏的场景和解决方案详解

Android中常见内存泄漏的场景和解决方案详解

python解析网页上的json数据并保存到EXCEL

python解析网页上的json数据并保存到EXCEL

使用wxPython创建一个文件夹结构生成器

使用wxPython创建一个文件夹结构生成器

开发者开发者网给大家分享系统运维,大数据运维,云计算,编程开发技巧,路由交换,运维和开发相关的资讯及技术文章，同时StackOverflow中文社区，知识经验交流分享。

法律声明：本站内容均为网友上传，网站举办方负责审核和监督，如存在版权或非法内容，欢迎举报，我们将尽快予以删除。邮箱：devze@qq.com

Copyright © 2018-2020 开发者. All rights reserved. Powered by 开发者ICP备案号: 京ICP备10032868号-9