Scrapy 框架介绍
一、scrapy 框架介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,
我们只需实现少量的代码,就能够快速的抓取。
Scrapy 使用了Twisted异步网络框架,可以加快我们的下载速度。
二、scrapy 安装
pip install scrapy
安装完成后在命令行,如果信息显示说明安装成功
scrapy –help
三、scrapy 快速体验
使用流程
# 创建项目 (在终端操作)
scrapy startproject 项目名称
# 创建爬虫
cd 项目目录
scrapy genspider 爬虫名称 允许域名
eg: scrapy genspider movies douban.com
# 编写爬虫组件(解析数据)和管道组件(保存数据)
import scrapy
class MoviesSpider(scrapy.Spider):
name = 'movies' # 爬虫名称
allowed_domains = ['douban.com']
# 输入首个爬取网址
start_urls = ['https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0']
def parse(self, response):
"""解析函数"""
pass
# 启动爬虫(在终端操作)
scrapy crawl 爬虫名称
eg: scrapy crawl movies
实现多个请求
删除 start_urls参数
url = 'https://www.baidu.com/s?wd={}'
def start_requests(self):
"""实现多个请求"""
for page in range(1, 10):
# 通过scrapy.Request将请求交给引擎
yield scrapy.Request(
self.url.format(page)
)
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。
文章标题:Scrapy 框架介绍
本文作者:伟生
发布时间:2019-09-01, 19:00:11
最后更新:2019-09-01, 19:21:05
原始链接:http://yoursite.com/2019/09/01/spider_scrapy_01/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。