2018年1月15日 星期一 晴

  1. 分析工具: Chrome开发者工具、Firbug、fiddler等

  2. 模拟工具 PostMan

  3. 常用的库和技巧 (1)访问网络: urllib(有时用来转码) urllib2(可以造request对象,支持ftp) cookielib(cookie处理) requests(支持socks,cookie,session,https) (2)解析:re、lxml、PyQuery、beautifulsoup、html5lib、html.parser (3)UserAgent:应该有一个表,每次爬的时候换 (4)代理服务器(自建或者购买)、squid (5)多线程(线程池)、twisted、asyncio、Tornado、gevent、Py3支持进程池线程池回调 (6)验证码(PIL等) (7)time.sleep(),有时候要延时弄一下,防止爬的频率过快被封 (8)下载工具:wget (9)填refer,反盗链 (10)js处理:Selenium+webdriver、selenium+phantomjs、scrapy+splash、PyV8、Ghost.py、pamie,watir,phantomjs (11)gzip/deflate支持 (12)访问手机网站 (13)url队列,去重;深度优先(scrapy)、广度优先

  4. 框架:Scrapy、pyspider(可视化)等

  5. 保存数据 (1)文本:纯文本、Json、Xml、Excel、CVS (2)关系型数据库:mysql,oracle,sql server (3)非关系型数据库:MongoDB,Redis等key-value形式存储 (4)多媒体:图片、视频等