341|2

29

帖子

0

资源

一粒金砂(中级)

使用Scrapy框架编写爬虫

 

编写爬虫

在 tutorial/spiders/ 下创建一个 py 文件 dmoz_spider.py,它是这样定义的:

import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
    name = 'dmoz'
    allowed_domains = ['dmoz.org']
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        for sel in sites:
            item = DmozItem() # 实例化一个 DmozItem 类
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()
            yield item

爬虫类必须继承自 scrapy.Spider 类, 且定义一些属性:

name: 用于区别 Spider。 该名字必须是唯一的,不可以为不同的 Spider 设定相同的名字。

start_urls: 包含了 Spider 在启动时进行爬取的 url 列表。 因此,第一个被获取到的页面将是其中之一, 后续的URL则从初始的URL获取到的数据中提取。

parse() 是 spider 的一个方法。 被调用时,每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成 item )以及生成需要进一步处理的 URL 的 Request 对象。scrapy 为 Spider 的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了 Request。Request 对象经过调度,执行生成 scrapy.http.Response 对象并送回给 spider parse() 方法, 一般返回 Item 实例。

爬取

进入该工程目录,本例中就是 tutorial/, 在命令行执行

scrapy crawl dmoz

保存

可以使用如下命令

scrapy crawl dmoz -o items.json

该命令是说将结果保存在 items.json 文件中。

常用的命令行工具

 

# 创建项目
scrapy startproject myproject
# 帮助信息
scrapy <command> -h 
# 帮助信息
scrapy -h 
# 使用下载器下载指定的url,并将获取到的内容送到标准输出
scrapy fetch <url>
# 在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现
scrapy view <url>
# 以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell
scrapy shell [url]
#在未创建项目的情况下,运行一个编写在Python文件中的spider
scrapy runspider <spider_file.py>
# 获取Scrapy的设定
scrapy settings [options]
-------------------------以上不需要项目,以下需要在项目中----------------------------------------
# 使用 template 模版来信创建一个 spider, name 值为<name>, allowed_domains 值为 <domain> 
scrapy genspider [-t template] <name> <domain> 
# 查看可用的模版,默认有 basic、crawl、csvfeed 和 xmlfeed 4个
scrapy genspider -l
# 查看 TEMPLATE 信息
scrapy genspider -d TEMPLATE 
# 使用<spider>进行爬取数据
scrapy crawl <spider>
# 列出当前项目中所有可用的 spider
scrapy list
# 运行contract检查。
scrapy check [-l] <spider>
# 获取给定的URL并使用相应的spider分析处理,可以解析成自己写的 item
scrapy parse <url> [options]

还有很多实际问题需要我们在实际抓取过程中根据问题实际分析,实际解决,很大程度上来说,爬虫抓取是一项很麻烦而且很困难的工作,因此现在很多软件被研发出来,旨在解决爬虫程序的各种问题,亿牛云代理IP(www.16yun.cn)家的爬虫代理加强版除了帮助大家解决爬虫抓取问题,还简化操作,争取以简单的操作满足爬虫的抓取需求,并且为爬虫提供丰富的ip信息,满足爬虫对ip的使用需求。爬虫程序会面临很多问题,因此在实际操作过程中,需要提前做好各种检查和准备,以应对不时之需

 

 

 

 

此帖出自无线连接论坛

回复

247

帖子

0

资源

一粒金砂(中级)

感谢分享


回复

2万

帖子

337

资源

版主

 是流行的Python语音?


回复
您需要登录后才可以回帖 登录 | 注册

关闭
站长推荐上一条 1/6 下一条

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 安防电子 汽车电子 手机便携 工业控制 家用电子 医疗电子 测试测量 网络通信 物联网

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved
快速回复 返回顶部 返回列表