多线程程序以前也没有开发过,理解需要一定的时间。而且,使用多线程,得找到程序的瓶颈所在。抓网页的瓶颈主要是网页IO,而不是内容处理,网页IO耗时应该占了90%以上。今天终于把多线程的网络程序写完了,速度提高了几倍,原来打开解析近900条数据需要9分钟,现在快的话两三分钟。

      不过,在多线程任务结束时处理的不太好,也不知道该怎么处理,结果总是会丢失几条数据。为了抓网站的进度,我还是使用最保守的方法去下载数据吧。