Scrapy 架构及数据流图简介
Response并通过Spider中间件(输入方向)发送给Spider处理。 Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。 引擎将(Spider返回的)爬取到的Item给Item Pipeline,将(Spider返回的)Request给调度器。 (从第二步)重复直到调度器中没有更多地request,引擎关闭该网站。 事件驱动网络(Event-driven networking) Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。 关于异步编程及Twisted更多的内容请查看下列链接: Introduction to Deferreds in Twisted Twisted - hello...阅读全文