Scrapy 是专门用来爬取网站数据的应用框架。爬取一个网站的数据,无非是从一个地方开始,拿到链接,读取页面,分析页面,拿到需要的数据,然后再存储下来,最后再循环这一步。过程挺好理解的,借一张图来说明 Scrapy 的工作流程:

分析说明,可以看下这里:
http://www.jianshu.com/p/a8aad3bf4dc4
相对于这些理论性的东西,我考虑更多的是如何解决实际问题。有一段时间我对用 Python 写爬虫挺感兴趣的,但也只是爬一个页面的数据,当遇到翻页问题的时候,就拿它没有什么办法了。我早听说过 Scrapy 这个框架,但却认为还是 Geek 点好,自己写多酷呀,不过事实证明,水平是有限的,真搞不出来。当使用 Scrapy 时,才发现其真的强大!
这几天 ,我想做一个可以学习古诗的App,其核心的展示功能是做出来了,可以是没有数据呀。想过自己每天添加几首,但这事太麻烦,还是想弄点现成的,这样后期就不用太费事了。于是想到做一个爬虫来弄数据源。
我的目标是一个名为「古诗文网」的站点,收录的诗文很多,光古诗都四万多首。可惜这个站没有现成的 API 可用,不然也不费这事了。我只想拿到古诗这部分内,流程是这样的:

平时很少画这些图,希望能够把问题说清楚。
「古诗第一页」,其实是一个爬虫入口,这是一个列表页。局部是这样的:

每页有十项,我需要拿到每一项的数据的链接,同时还需要拿到「下一页」的链接,这一过程,交由「页面分析器」处理。这项拿到之后,就可以将数据的链接传递给「单页分析器」处理拿到每首诗的详细数据了。于是在 Spider 中,我需要定义好入口,写出两个析器。
入口:
1 | start_urls = [ |
列表页面分析器:
处理两件事,一件是分析页面,拿数据的链接,交给 self.parse_content()处理,另一个就是拿到下一页,由于和入口结构一样的,只需要交由本身再进行分析,处理即可。调用方法,使用的是:
1 | class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback]) |
这个方法好长,不过我只传了两个参数进去,一个就是需要处理的 URL,还有就是回调的函数。这一步明白之后,代码就容易看明白了。
1 | def parse(self, response): |
1 | def parse_content(self, response): |
代码中对于页面结构的分析部份花的时候挺多的,其实说起来技术性的东西是不多的,只是需要有点耐心,仔细一点就OK了。在理结构的时候,可以使用浏览器来辅助,我是将 Safari 与 Chrome 结合起来用。在 Safari 中的「元素检查」,点击结构中的项时,上面就会有一层层的CSS结构,在使用可以使用CSS选择器来获得数据。

对于 Chrome,则是 XPath 结构,可以将这样的结构复制出来:

比如,我复制的这个结构:
1 | /html/body/div[3]/div[1]/div[14]/p[1]/a |
这个结构是从最顶级开始的,我们在使用的时候,其实没有必要这么长的,对于一个级中多个相同元素,XPath是按从0到1的顺序编号的, 如/html/body/div[3]所表示的意思是/html/body下面的第三个div,其它的以此方法类推即可,不过如果一个 HTML 中如果有 class的话,我还是喜欢用 div[@class="CLASSNAME"]这样的方法来取,直观明子,不用一个个数顺序。
有了这两个工具,编写页面分析器的工作难度确实降了不少。但如果每次编完代码就跑一次,这样调试还是挺麻烦的,有个小技巧,Scrapy 提供了一个Shell功能,可以直接在终端下面命令行方式来编写分析规则,启动方法:
1 | $ scrapy shell PAGE_URL |
启动之后,会得到一个名为 response的变量,就可以对数据进行解析了。

反复尝试,我自己也不熟练,编写这些代码花了不少时间。
当爬用多个层级的页面时,就可以使用这种式法来构建代码,这里我爬的是两级的,所以写了两个分析器,如果下面存在第三级,则只需要再按需求编写一个方法即可。这次才算是搞明白了该如何解决多级爬取分析的问题了。
不过仍有一些问题没有搞定的。现在许多的网站是不允被爬取的,我在爬古诗文网的时候,最多也只爬到四百多条,而后面就开始出现 TCP 超时。尽管我设置了 4s 的爬取延时,仍没多大效果。Scrapy 官方给了一些解决办法,但我还没来得及研究。
再有一个问题,对于这种结果的数据:

我想拿到所有的 p 这个 Tag 内的内容,而每次 p 的个数又不一样,我的处理办法是拿到所有div里的内容,再按段拆成数组,取中间需要的部份,像这样:
1 | content = response.xpath('//div[@class="son2"]')[1].extract().strip().split('\n')[20:-1] |
但问题时,当p里再出现 HTML 代码时,就管不了了,再使用正则表达式提取?
先这样吧,早上起来又把爬虫跑了一次,但到一百多次的时候就「熄火」了,也没啥错误提示,这会正在跑,但却只有一百多条数据,还早着呢。