安全

开发者

衍生版

Debian的衍生版们

容器化

Scrapy 架构及数据流图简介

2017年7月23日综合分类评论1,546字数 762阅读模式

Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。本文着重介绍 Scrapy 架构及其组件之间的交互。

Scrapy 组件介绍

Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。
调度器(Scheduler) 调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。
下载器(Downloader) 下载器负责获取页面数据并提供给引擎，而后提供给spider。
Spiders Spider 是 Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。
Item Pipeline Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。
下载器中间件(Downloader middlewares) 下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。
Spider中间件(Spider middlewares) Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Scrapy 架构及数据流图简介

数据流(Data flow)

Scrapy中的数据流由执行引擎控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

事件驱动网络(Event-driven networking)

Scrapy基于事件驱动网络框架 Twisted 编写。因此，Scrapy基于并发性考虑由非阻塞(即异步)的实现。

关于异步编程及Twisted更多的内容请查看下列链接:

文章末尾固定信息

继续阅读

本文由 admin 发表于 2017年7月23日
除非特殊声明，本站文章许可协议为"署名-非商用-相同方式共享 4.0"，转载请保留原链、作者等信息。

python
scrapy

NSA 的 Python 手册

NSA 的 Python 手册

开发者 900 02/20

Pyinotify - Linux中实时监控文件系统更改

Pyinotify – Linux中实时监控文件系统更改

综合分类 1,603 11/09

Numpy 库准备放弃支持 Python 2

Numpy 库准备放弃支持 Python 2

综合分类 1,958 11/18

Django 面临困境欲重组核心团队

Django 面临困境欲重组核心团队

综合分类 1,075 11/23

Debian升级过程中报错：public key is not available: NO_PUBKEY

Debian升级过程中报错：public key is not available: NO_PUBKEY

Debian LTS 团队今天起接管 Debian 11 安全更新工作

Debian LTS 团队今天起接管 Debian 11 安全更新工作

Debian (Bookworm) 12.6 更新

Debian (Bookworm) 12.6 更新

Debian 10本月底结束支持用户应立即升级到 Debian 11或12

Debian 10本月底结束支持用户应立即升级到 Debian 11或12

Debian 12 发布，迄今为止最佳版本

Debian 12 发布，迄今为止最佳版本

Debian 12 Bookworm 预计采用 Linux 6.1 LTS 内核

Debian 12 Bookworm 预计采用 Linux 6.1 LTS 内核

Debian 12 Bookworm 进入软冻结状态

Debian 12 Bookworm 进入软冻结状态

Debian GNU/Linux 14 代号已确定为 Forky

Debian GNU/Linux 14 代号已确定为 Forky

Apache Superset 成为 ASF 顶级项目

PostgreSQL 13 正式版发布

Debian升级过程中报错：public key is not available: NO_PUBKEY

加载中...

广告也精彩

发表评论

匿名网友

确定

昵称

邮箱

网址

Address

拖动滑块以完成验证