晚上pipa同学扔过来一个似乎是用awk写的脚本,pipa同学真厉害,花了两个小时就帮俺搞定了。可惜俺在机器上怎么也跑不了他的那个脚本。在cygwin下多次找不到文件,一怒之下,全面文件都用绝对路径写死了,结果似乎是出来了,但将结果输出到> res.txt却一直没有看到res.txt(绝对路径)的内容改变,我哭~~白天就不骚扰pipa了,等他晚上浮上来再问他。

       不得已,我又继续开始我的python之旅。我的阅读速度很快,就看了上篇blog里的链接,copy出一个例子来,就对着帮助文档开始写了。习惯用C语言了,看什么网络编程语言和脚本语言都感觉怪怪的,变量似乎没有类型的,随时定义随时使用,可怕。也不再有指针之类的了。不过python是个面向对象编程语言,我用了半天才意识到我是在做继承原来的类做一个新类。这回没有用命令行玩了,我是用Python的IDLE玩的。编译老是出错,却不知道如何调试,有时候不知道哪里出错了,却不知道Python能不能设置断点?经常犯一个错误,就是忘了在if语句后加一个分号,编译都多次提示这里是synax error了,唉,C/C++程序员的悲哀啊。

      直接在互联网上抓内容,无需把网页内容保存到本地再解析。网页内容我是用SGMLParser去解析的,SGMLParser功能很强大,搞明白了也不难,可能会Python的人一看就知道怎么用了,俺是不会Python才这么辛苦。俺是把内容都解析出来了,可是,却不明白部分中文怎么会变成乱码?也许跟网页的UTF8编码有关,但一时不知道怎么解决。

       夜已深,先睡了。有了这个东西,以后在网上可以随便抓东西用了,哈哈~~