<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>ye's world &#187; crawler</title>
	<atom:link href="http://www.yegq.org/archives/tag/crawler/feed" rel="self" type="application/rss+xml" />
	<link>http://www.yegq.org</link>
	<description>谁用谁闪亮</description>
	<lastBuildDate>Thu, 08 Apr 2010 04:05:28 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.5</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>我是一只小爬虫</title>
		<link>http://www.yegq.org/archives/186</link>
		<comments>http://www.yegq.org/archives/186#comments</comments>
		<pubDate>Sun, 01 Nov 2009 19:05:51 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[技术活]]></category>
		<category><![CDATA[BeautifulSoup]]></category>
		<category><![CDATA[crawler]]></category>
		<category><![CDATA[gae]]></category>
		<category><![CDATA[php]]></category>
		<category><![CDATA[python]]></category>

		<guid isPermaLink="false">http://www.yegq.org/?p=186</guid>
		<description><![CDATA[不是我，是它。刚刚放出了一只小爬虫，完成了任务。它爬了4,411个页面，有5个因为http连接超时而不成功，都是外国的站点，这个比较正常。算下来成功率很高的了。
看了一下log，不同站点响应速度有差别，总体来说，每个页面抓取时间平均约为2秒钟；接着分析页面平均花了0.7秒，比较欣喜，在这些小规模应用上，BeautifulSoup 的效能完全令人满意的；然后其余的数据库操作大概用了半秒钟。
总体来说，一个页面抓取和分析和数据存储任务大概就要3.2秒。
再进一步总结：

python是很适合做这类光荣的小爬虫任务的。
BeautifulSoup 真的很方便，我一口气写了30多个站点的抓取规则，一开始一边写一边祈祷这日子赶快结束，写到后来发现还是觉得不算无趣的。那种你看一眼html代码就知道应该如何写并且一下手就准确无误的感觉是很爽的。要知道有些网站的html写的很变态，上个世纪的html风格都有。
GAE好多限制，不得不将代码重构了一遍，迁移到纯粹的python环境下。关键是好多个数据表，他们之间关系复杂，用关系数据库（比如Mysql）最好。GAE上好不容易处理，都快把我弄疯掉了，比如那个在SQL里面很容易处理的PK/AI啊，GAE得自己写个function去保证唯一并自增，真是很傻的
小型的web应用，还是PHP最方便。信手拈来，想怎么搞就这么搞，写PHP代码都不用构思的，心里想着目标和路径，一气呵成，连debug都省了。

爬虫，就是crawler。比较恶心蜘蛛，还是称之为爬虫好，当然，更温情的是叫机器人。
PS，百度最恶心了，它家的爬虫叫baiduspider，
google的最好，所以他叫googlebot
yahoo的最恐怖，叫yahoo slurp（吸血鬼啊！？）
bing的想向google大神发起冲击，所以也叫bot，bing MSNBot （呃，不过貌似在破烂的msn search年代就用bot这个称谓）
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;华丽之分割线&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;
不知不觉已经凌晨了，外面有人在吵架，上海人平常说话就像吵架，吵架的时候就像拆楼。不过我一定睡的着，你就继续吵吧～
并且呢，上海人吵闹似乎都乐于摆出来给大家观瞻的，例如那个叫新老娘舅的节目
]]></description>
			<content:encoded><![CDATA[<p>不是我，是它。刚刚放出了一只小爬虫，完成了任务。它爬了4,411个页面，有5个因为http连接超时而不成功，都是外国的站点，这个比较正常。算下来成功率很高的了。</p>
<p>看了一下log，不同站点响应速度有差别，总体来说，每个页面抓取时间平均约为2秒钟；接着分析页面平均花了0.7秒，比较欣喜，在这些小规模应用上，<a title="BeautifulSoup" href="http://www.crummy.com/software/BeautifulSoup/" target="_blank">BeautifulSoup</a> 的效能完全令人满意的；然后其余的数据库操作大概用了半秒钟。</p>
<p>总体来说，一个页面抓取和分析和数据存储任务大概就要3.2秒。</p>
<p>再进一步总结：</p>
<ul>
<li><a title="python" href="http://www.python.org/" target="_blank">python</a>是很适合做这类光荣的小爬虫任务的。</li>
<li><a title="BeautifulSoup" href="http://www.crummy.com/software/BeautifulSoup/" target="_blank">BeautifulSoup</a> 真的很方便，我一口气写了30多个站点的抓取规则，一开始一边写一边祈祷这日子赶快结束，写到后来发现还是觉得不算无趣的。那种你看一眼html代码就知道应该如何写并且一下手就准确无误的感觉是很爽的。要知道有些网站的html写的很变态，上个世纪的html风格都有。</li>
<li><a title="google app engine" href="http://code.google.com/appengine/" target="_blank">GAE</a>好多限制，不得不将代码重构了一遍，迁移到纯粹的<a title="python" href="http://www.python.org/" target="_blank">python</a>环境下。关键是好多个数据表，他们之间关系复杂，用关系数据库（比如<a title="mysql" href="http://www.mysql.com" target="_blank">Mysql</a>）最好。<a title="google app engine" href="http://code.google.com/appengine/" target="_blank">GAE</a>上好不容易处理，都快把我弄疯掉了，比如那个在SQL里面很容易处理的PK/AI啊，GAE得自己写个function去保证唯一并自增，真是很傻的</li>
<li>小型的web应用，还是<a title="php" href="http://www.php.net" target="_blank">PHP</a>最方便。信手拈来，想怎么搞就这么搞，写<a title="php" href="http://www.php.net" target="_blank">PHP</a>代码都不用构思的，心里想着目标和路径，一气呵成，连debug都省了。</li>
</ul>
<p>爬虫，就是crawler。比较恶心蜘蛛，还是称之为爬虫好，当然，更温情的是叫机器人。</p>
<p>PS，百度最恶心了，它家的爬虫叫baiduspider，</p>
<p>google的最好，所以他叫googlebot</p>
<p>yahoo的最恐怖，叫yahoo slurp（吸血鬼啊！？）</p>
<p>bing的想向google大神发起冲击，所以也叫bot，bing MSNBot （呃，不过貌似在破烂的msn search年代就用bot这个称谓）</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;华丽之分割线&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;</p>
<p>不知不觉已经凌晨了，外面有人在吵架，上海人平常说话就像吵架，吵架的时候就像拆楼。不过我一定睡的着，你就继续吵吧～</p>
<p>并且呢，上海人吵闹似乎都乐于摆出来给大家观瞻的，例如那个叫新老娘舅的节目</p>
]]></content:encoded>
			<wfw:commentRss>http://www.yegq.org/archives/186/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
