UNNAMED の博客

Python 调控 Scrapy 爬虫速度，让爬虫更稳定

分类: Python3.6 作者: admin 浏览: 1125 时间: 2018年11月03日 0

编辑 settings.py 文件，然后根据以下提供的功能自行选择1. 修改是否遵守爬虫协议为 False# Obey robots.txt rules ROBOTSTXT_OBEY = False2. 修改并发请求数，修改为1，或者2，越小爬取速度越慢，太快容易被识别到# Configure maximum concurrent requests performed by&

查看全文

Python3：操作 dict 时避免出现 KeyError 的几种方法

分类: Python3.6 作者: admin 浏览: 1504 时间: 2018年11月02日 0

在读取dict的key和value时，如果key不存在，就会触发KeyError错误，如：t = {'a': '1','b': '2','c': '3',}print(t['d'])就会出现：KeyError: 'd'第一种解决方法：利用 dict 内置的 get(key[,default]) 方法，如果 ke

查看全文

Python 处理 HTML 转义字符

分类: Python3.6 作者: admin 浏览: 792 时间: 2018年11月02日 0

抓网页数据经常遇到例如 > 或者   这种HTML转义符，抓到字符串里很是烦人。比方说一个从网页中抓到的字符串html = '<abc>'用Python可以这样处理：import HTMLParser html_parser = HTMLParser.HTMLParser() txt = html_parser.unescape(html)&nbs

查看全文