<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>何清勇SEO博客</title>
	<atom:link href="http://www.scseoer.com/feed" rel="self" type="application/rss+xml" />
	<link>http://www.scseoer.com</link>
	<description>何清勇（成都）：爱好SEO的四川人，遵循搜索引擎优化规则，研究网站SEO优化技术！</description>
	<lastBuildDate>Sat, 18 Feb 2012 02:45:29 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.2</generator>
		<item>
		<title>网页快照内容显示不完全是咋回事</title>
		<link>http://www.scseoer.com/kuaizhao-zhuaqu.html</link>
		<comments>http://www.scseoer.com/kuaizhao-zhuaqu.html#comments</comments>
		<pubDate>Sat, 18 Feb 2012 02:45:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[爬虫程序]]></category>
		<category><![CDATA[网页快照]]></category>
		<category><![CDATA[网页抓取]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2555</guid>
		<description><![CDATA[<p>很多时候，一些朋友喜欢关注自己的网页快照及快照内容，对于网站快照中内容没有显示完全，自己会担心是否是搜索引擎的爬虫程序对网页没有抓取完全导致的，到底是不是这样，为了准确的找到答案，我们可以借助网站日志文件来准确找到答案。</p>
<p>2012-02-16 10:59:13 GET / &#8211; 123.125.71.94 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html[......]</p><p class='read-more'><a href='http://www.scseoer.com/kuaizhao-zhuaqu.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/kuaizhao-zhuaqu.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>关于SEO 百度其实是欢迎的</title>
		<link>http://www.scseoer.com/baimao-seo.html</link>
		<comments>http://www.scseoer.com/baimao-seo.html#comments</comments>
		<pubDate>Thu, 16 Feb 2012 15:41:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[百度SEO]]></category>
		<category><![CDATA[网页价值]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2553</guid>
		<description><![CDATA[<p>一个搜索结果出现的提示信息，让SEO行业一些从业者都不知所措，包括一些有经验的SEO人员，正如百度的搜索引擎优化指南讲到：</p>
<p>搜索引擎与SEO行为间是一种良性的共生关系，比如很多优质的网站是用Flash或者Ajax做的，搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后，可以通过对网站的合理优化，使这些优质资源更好的发挥其检索效果，改善用户的搜索体验。</p>
<p>一个搜索引擎最基础的工作是抓取网页，向有需求的用户进行展示，而抓取更毒相对优质的网页更能体现一个搜索引擎的专业度，特别是对于全球[......]</p><p class='read-more'><a href='http://www.scseoer.com/baimao-seo.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baimao-seo.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>百度提示：非正当SEO手法可能对网站带来风险</title>
		<link>http://www.scseoer.com/seo-tixing.html</link>
		<comments>http://www.scseoer.com/seo-tixing.html#comments</comments>
		<pubDate>Wed, 15 Feb 2012 08:23:50 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO作弊]]></category>
		<category><![CDATA[百度SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2540</guid>
		<description><![CDATA[<p style="text-align: center;"><img class="alignnone size-full wp-image-2545" title="百度搜索SEO结果变化" src="http://www.scseoer.com/wp-content/uploads/2012/02/baidu-seo1.jpg" alt="百度搜索SEO结果变化" width="500" height="397" /></p>
<p style="text-align: center;">百度搜索SEO结果变化</p>
<p>百度提示您：不要轻信seo公司的说辞和案例，不正当的seo可能会给您的站点造成风险。建议广大站长对站点进行seo之前，参考阅读百度的官方指南。</p>
<p>随着SEO行业不断发展，SEO人员不断增多，各种作弊方式越来越多，这也是导致百度出现该提示的主要原因。</p>
<p>从提示不难发现，一些不正当SEO手法（黑帽SEO）将越来越受到排斥，无论是百度搜索引擎自身，还是面对的SEO客户，都将警惕SEO手法给自身网站带来的危害，后面提醒站长对网站进行SEO优化操作的时候请参阅百度SEO指南（2.0版[......]</p><p class='read-more'><a href='http://www.scseoer.com/seo-tixing.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seo-tixing.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>简单实现“百度SEO建议”100分</title>
		<link>http://www.scseoer.com/seojianyi-100.html</link>
		<comments>http://www.scseoer.com/seojianyi-100.html#comments</comments>
		<pubDate>Mon, 13 Feb 2012 14:30:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO建议]]></category>
		<category><![CDATA[百度统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2534</guid>
		<description><![CDATA[<p>自从百度统计工具推出SEO建议功能后，不少SEO爱好者都利用该工具对自己的网站进行了简单的SEO基础检测，该工具检测的项目有限，对网站的URL和页面内容进行了检测，如果你通过该工具检测结构未达到满分，可以通过以下方式得到满分100。</p>
URL检测
<p>URL长度：百度建议url的最长长度不超过255byte。</p>
<p>处理方式：一般URL的长度不宜过长，首先过长的URL不便于用户记忆，另外从爬虫的角度看（非必要），也不便于从URL理解网页内容。如果你的URL是经过伪静态处理，那么，这点一般都没有什么问题。</p>
<p>静[......]</p><p class='read-more'><a href='http://www.scseoer.com/seojianyi-100.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seojianyi-100.html/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>谷歌网页布局算法调整</title>
		<link>http://www.scseoer.com/wangye-buju.html</link>
		<comments>http://www.scseoer.com/wangye-buju.html#comments</comments>
		<pubDate>Sun, 12 Feb 2012 06:00:14 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户体验]]></category>
		<category><![CDATA[谷歌算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2531</guid>
		<description><![CDATA[<p>谷歌一直以来都致力于帮助站长在搜索结果中找到更多优质网站，最近谷歌对算法做出了新的调整，旨在改进网页布局以及用户在点击搜索结果后能够看到的网页内容的数量。</p>
<p>的确，无论是在百度还是谷歌的搜索结果中，有时候会遇见这样的问题，点击搜索结果后很难找到实际的网页内容，这样的网页对用户体验方面考虑的可能实在太少。至少用户希望点击后就能直接看到内容，而不是不停地下拉滚动条，冒出一条接一条的广告。因此，那些没有提供首屏内容的网站可能会受到谷歌本次算法调整的影响。点击一家网站后，如果您第一眼看到的网页上没有大量的[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangye-buju.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangye-buju.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>网络爬虫工作原理及分布式网络爬虫体系结构设计</title>
		<link>http://www.scseoer.com/wangluopachong.html</link>
		<comments>http://www.scseoer.com/wangluopachong.html#comments</comments>
		<pubDate>Mon, 30 Jan 2012 15:56:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网络爬虫]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2500</guid>
		<description><![CDATA[<p>一篇关于网络爬虫程序的一些原理及体系结构纯技术文章，一些地方可能不会看的很明白，对于SEO行业，经常和搜索引擎及其爬虫程序打交道，仔细浏览下，一些不清楚而自己又很想了解的地方，可以借助搜索来需找相关解释，对工作还是有帮助的（个人认为值得注意的地方已加红显示）。文章相对较长，可以转换成PDF格式文档阅读（太懒的童鞋可以在文章结尾自行下载）。</p>
网络爬虫工作原理
<p>1、聚焦爬虫工作原理及关键技术概述</p>
<p>网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangluopachong.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangluopachong.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>网页质量提升成SEO最大难点</title>
		<link>http://www.scseoer.com/wangye-zhiliang.html</link>
		<comments>http://www.scseoer.com/wangye-zhiliang.html#comments</comments>
		<pubDate>Sat, 28 Jan 2012 03:15:32 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页数据]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2494</guid>
		<description><![CDATA[<p>无论你是否对网站进行优化操作，网页本身质量的提升始终是最基础的，无论是搜索引擎的爬虫程序还是普通用户，也无论是通过搜索引擎还是其他推广方式，首先是先进入你的网站，网页页面质量判断是第一印象，接着才会是用户评价及内容推荐，所以网页本身的质量是最基础，也是最重要的工作，目前也将SEO工作的最大难点。</p>
百度设立19项创新研究方向
<p>百度校园大规模机器学习与数据挖掘主题研究项目总共收到了来自全国各大高校及学术机构的数十份研究方案，经过百度公司由资深技术专家构成的专家委员对所有方案进行的认真，仔细的讨论及评[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangye-zhiliang.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangye-zhiliang.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>新手学习SEO可选择权威SEO教材作为入门</title>
		<link>http://www.scseoer.com/xinshou-seo-jiaocai.html</link>
		<comments>http://www.scseoer.com/xinshou-seo-jiaocai.html#comments</comments>
		<pubDate>Fri, 13 Jan 2012 04:52:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO学习]]></category>
		<category><![CDATA[SEO资料]]></category>
		<category><![CDATA[百度SEO]]></category>
		<category><![CDATA[谷歌SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2483</guid>
		<description><![CDATA[<p>随着互联网越来越普及，加上很多网络营销观念的深入，不少企业或个人已经开始注重网络推广，对于有网站的企业来讲，可能早已经认识到搜索引擎排名的重要性，从09年至今，不少企业应该开始尝试并组建自己的SEO团队，SEO行业发展势头良好，学习SEO的人也越来越多，作为前期的SEO学习者来讲，选择SEO资料或相关教材非常关键。</p>
<p>对于前期学习SEO，对SEO的第一印象和认识是非常关键的，这会影响到以后学习的进度和操作方式，甚至可能包括整个优化思维，目前互联网有关SEO的资料多如牛毛，每家每户对SEO都可能是不[......]</p><p class='read-more'><a href='http://www.scseoer.com/xinshou-seo-jiaocai.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/xinshou-seo-jiaocai.html/feed</wfw:commentRss>
		<slash:comments>22</slash:comments>
		</item>
		<item>
		<title>百度快照出现“喜欢”图标的原因分析</title>
		<link>http://www.scseoer.com/baidukuaizhao-xihuan.html</link>
		<comments>http://www.scseoer.com/baidukuaizhao-xihuan.html#comments</comments>
		<pubDate>Wed, 11 Jan 2012 12:55:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2476</guid>
		<description><![CDATA[<p>昨天晚上在百度中搜索关键词的时候，偶然发现百度某些搜索结果后的百度快照后多了一个小拇指，鼠标放上去显示XX人喜欢，在百度搜索“SEO”的结果截图。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2477" title="百度快照后的喜欢图标" src="http://www.scseoer.com/wp-content/uploads/2012/01/baidu-kuaizhao.jpg" alt="百度快照后的喜欢图标" width="548" height="189" /></p>
<p style="text-align: center;">百度快照后的喜欢图标</p>
<p>百度搜索引擎在自身搜索结果中做添加或引用的数据一直都没有什么变化，除了前期对自身开放平台中的数据进行测试外，很少会引用网页内一些比较有用的标签数据，上次开放平台的那个图标是可以点击的，而目前只是显示数据。</p>
<p>对于这次百度搜索结果的快照后面的“喜欢”图标，网站猜测的朋友也很多，大致为浏览器或安装相关软件问题，也有朋友猜测是调用百度[......]</p><p class='read-more'><a href='http://www.scseoer.com/baidukuaizhao-xihuan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidukuaizhao-xihuan.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>你真的了解你的网站程序么？</title>
		<link>http://www.scseoer.com/wangzhan-chengxu.html</link>
		<comments>http://www.scseoer.com/wangzhan-chengxu.html#comments</comments>
		<pubDate>Tue, 10 Jan 2012 12:17:02 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网站安全]]></category>
		<category><![CDATA[网站程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2472</guid>
		<description><![CDATA[<p>如果你对自己网站的程序不了解，可以参考下这篇文章，程序高手千里狼与你分享程序安全问题给网站发展带来的隐患。</p>
<p>知己知彼方能百战百胜，在这里，知己就是了解我们自己的网站，作为一个站长来讲，连自己的网站程序都做不到足够的了解，那么怎么去知彼呢？怎么去超越竞争对手呢？所以，你真的了解自己的网站程序么？</p>
<p>可能有的同学会说，当然了解了，我的网站是用的 dedecms 做的，再加上一个 ecshop 做商城，又加了一个 dx 做论坛，还有一个 wordpress 做博客，然后用 ucenter 整合用户，这几[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangzhan-chengxu.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-chengxu.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>Robots.txt中的Crawl-delay参数</title>
		<link>http://www.scseoer.com/robots-crawl-delay.html</link>
		<comments>http://www.scseoer.com/robots-crawl-delay.html#comments</comments>
		<pubDate>Sun, 08 Jan 2012 08:21:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[流量限制]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2467</guid>
		<description><![CDATA[<p>robots.txt 大致介绍：</p>
<p>robots.txt 是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。</p>
<p>由于每个网站的实际配置和要求不一样，很多主机对流量的限制相对比较严格，一个网站的流量限制不止是普通用户浏览产生，搜索引擎的爬虫程序也会消耗很多流量，特别是抓取比较大的文件（比如视频或者图片）的时候，会让流量飙升，加上主机对流量的限制，进而可能会影响到普通用户浏览网页，所以我们可以通过 robots.tst 文件来限制搜索引[......]</p><p class='read-more'><a href='http://www.scseoer.com/robots-crawl-delay.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/robots-crawl-delay.html/feed</wfw:commentRss>
		<slash:comments>23</slash:comments>
		</item>
		<item>
		<title>Google SEO信息年终总结 &#8211; 潘德成博客</title>
		<link>http://www.scseoer.com/2011-google-seo.html</link>
		<comments>http://www.scseoer.com/2011-google-seo.html#comments</comments>
		<pubDate>Mon, 02 Jan 2012 14:47:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[谷歌SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2458</guid>
		<description><![CDATA[<p>2011年马上就要结束了，这里总结一下Google关于SEO方面的资讯（潘德成博客）。谷歌每年对其搜索算法作出超过500次的修改，由于大多数修改只会影响极少部分的搜索结果，所以很少有人察觉。这里也是从一些较为靠谱的新闻资讯来揣摩Google算法的修改方向，来指导SEO工作。</p>
1月20日
<p>有站长在 Google webmaster help 论坛中说自己的网站被降级。Google JohnMu 回复称，网站含有大量空白 HTML 页面被 Google bot 判定为大量重复内容而导致网站降权。结论[......]</p><p class='read-more'><a href='http://www.scseoer.com/2011-google-seo.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/2011-google-seo.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>关于带与不带www域名快照及排名问题的纠结</title>
		<link>http://www.scseoer.com/about-www.html</link>
		<comments>http://www.scseoer.com/about-www.html#comments</comments>
		<pubDate>Mon, 02 Jan 2012 08:10:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[301重定向]]></category>
		<category><![CDATA[网站排名]]></category>
		<category><![CDATA[网页快照]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2454</guid>
		<description><![CDATA[<p>对于带www与不带www的URL，常见为的例子：“scseoer.com”与“www.scseoer.com”。这两条不用的URL对应的页面都是本博客首页，无论那条URL拥有排名，流量都会流入博客。</p>
<p>如果你注意了URL标准化，那么，当用户进行首页的时候，浏览器的地址显示的地址应该是你规定的标准化地址，本博客为“www.scseoer.com”，查询“scseoer.com”的返回码应该是301，“www.scseoer.com”的返回状态码是200，当然如果你还有首页的其他URL（比如网站的默认[......]</p><p class='read-more'><a href='http://www.scseoer.com/about-www.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/about-www.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>你注意过网站的联系方式了吗</title>
		<link>http://www.scseoer.com/lianxi-fangshi.html</link>
		<comments>http://www.scseoer.com/lianxi-fangshi.html#comments</comments>
		<pubDate>Wed, 21 Dec 2011 14:06:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[联系方式]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2405</guid>
		<description><![CDATA[<p>对于你网站的任何一位浏览者，都很有可能是你的潜在客户，在这些用户浏览网页信息的时候，如果他对你的产品或服务很感兴趣，往往在做出最终决策前需要先联系进行议价，或咨询产品的详细信息、公司的具体状况，甚至会亲自到企业参观调研。因此，您在网站上提供清晰有效的联系方式非常重要。</p>
网站提供联系入口
<p>一般来说，以下三种较为传统的联系方式是必备的：</p>
<p>1、电话号码</p>
<p>作为网站上最基本、也是最必不可少的联系方式，也是绝大部分潜在客户首选的咨询方式。除公司座机电话外，还可以提供手机号码、400/800免费电话等。特别是[......]</p><p class='read-more'><a href='http://www.scseoer.com/lianxi-fangshi.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/lianxi-fangshi.html/feed</wfw:commentRss>
		<slash:comments>49</slash:comments>
		</item>
		<item>
		<title>企业网站价格信息展示与公司介绍页面</title>
		<link>http://www.scseoer.com/gongsi-jiage.html</link>
		<comments>http://www.scseoer.com/gongsi-jiage.html#comments</comments>
		<pubDate>Sun, 18 Dec 2011 07:57:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[着陆页面]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2402</guid>
		<description><![CDATA[<p>对于企业网站来将，价格信息作为产品信息的重要构成元素，是不少潜在客户进入网站后首要关注的焦点。价格信息的提供减少了潜在客户在做决策时所面对的不确定性，有助于提升潜在客户与您后续咨询洽谈、进行合作的意愿。</p>
价格信息展示
<p>在网站上提供价格信息时，以下几点需要提醒您注意：</p>
<ol>
<li>突出优惠或促销信息。如果您正在开展优惠或促销活动，要在页面显著位置予以宣传，并说明参与办法，从而提高优惠或促销活动的影响力。特别是如果您在关键字的标题描述标有“促销”、“优惠”之类的字样，请务必在目标网页的显著位置明示产品价格和促[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/gongsi-jiage.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/gongsi-jiage.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>产品介绍页面应如何展示</title>
		<link>http://www.scseoer.com/product-page.html</link>
		<comments>http://www.scseoer.com/product-page.html#comments</comments>
		<pubDate>Wed, 14 Dec 2011 13:33:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[产品介绍]]></category>
		<category><![CDATA[购买欲望]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2393</guid>
		<description><![CDATA[<p>对于企业网站，对产品/服务信息的详细说明是潜在客户最为关注的信息，也最能体现企业的专业程度和可信度，将对潜在客户最终的购买决策发挥至关重要的作用。</p>
<p>根据研究，产品展示如达到以下标准，将更能吸引潜在客户的注意力，激发其咨询、购买的欲望：</p>
<p>产品介绍充足、详尽</p>
<p>对潜在客户来说，产品介绍提供得越详细越好，越能帮助他们了解产品。潜在客户希望了解的信息可能包括：产品规格、价格优惠、包装大小、功能用途、指标参数、售前售后服务条款（资料/试用品的提供、专业技术咨询、货运条件、维修费用、维修成本）等。</p>
<p>这些信息建[......]</p><p class='read-more'><a href='http://www.scseoer.com/product-page.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/product-page.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>网站被降权了怎么办</title>
		<link>http://www.scseoer.com/wangzhan-jiangquan.html</link>
		<comments>http://www.scseoer.com/wangzhan-jiangquan.html#comments</comments>
		<pubDate>Tue, 13 Dec 2011 10:12:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[百度降权]]></category>
		<category><![CDATA[网站降权]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2384</guid>
		<description><![CDATA[<p>做SEO不容易，经常面对各种不可预估的问题，网站被K与降权是特别让人头疼的问题，目前很多SEO论坛上关于网站被降权的求助帖非常多，这些咨询人员心态往往都很急，因为这问题的确很严重，所以帖子中经常会插入“在线等答案”、“坐等解决”、“急、急、急”等等词语，如果对网站的一些SEO操作和网站日志有分析过，那么找到问题根源的速度可能会快点，试问一些根本没有接触过你网站的SEO人员，如何快速给出你需要的答案，而且要达到解决问题的最终目的。</p>
<p>对于网站降权问题，个人博客遇见过三次这样的情况：</p>
<ul>
<li>谷歌K掉博客首[......]</li></ul><p class='read-more'><a href='http://www.scseoer.com/wangzhan-jiangquan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-jiangquan.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>关键词与目标网页正确对应</title>
		<link>http://www.scseoer.com/guanjianci-mubiaowangye.html</link>
		<comments>http://www.scseoer.com/guanjianci-mubiaowangye.html#comments</comments>
		<pubDate>Mon, 12 Dec 2011 15:32:26 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[目标网页]]></category>
		<category><![CDATA[网页质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2370</guid>
		<description><![CDATA[<p>无论是SEO中的关键词优化，还是一些付费推广，也包括一些PPC广告投放，目标网页（着陆页面）是潜在客户点击搜索结果（推广链接）后进入的第一个页面，也是潜在客户对您网站形成第一印象的页面，其重要性不言而喻。目标网页是否提供了与潜在客户的搜索词直接相关的内容、其呈现方式如何，潜在客户都将在几秒钟内做出判断，从而决定去留。</p>
<p>要通过目标网页有效地吸引并留住潜在客户，需要注意以下几点：</p>
1、在目标网页的显著位置直接包含关键字
<p>您的潜在客户需要了解与搜索关键字相关的信息，希望您的网站直观地告诉他：您是否提供[......]</p><p class='read-more'><a href='http://www.scseoer.com/guanjianci-mubiaowangye.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/guanjianci-mubiaowangye.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>你注意网站的使用体验了吗</title>
		<link>http://www.scseoer.com/wangzhan-shiyongtiyan.html</link>
		<comments>http://www.scseoer.com/wangzhan-shiyongtiyan.html#comments</comments>
		<pubDate>Sat, 10 Dec 2011 05:01:51 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页布局]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2366</guid>
		<description><![CDATA[<p>如果把网站想像成一家实际的商场，那么网站SEO优化或付费推广做的就是把顾客带入商场，顾客对商场形成的第一印象，如店面是否整洁、风格是否适宜，以及四处打量后的感受，如物品陈列是否有序，查找是否方便等，都属于使用体验的范畴，决定着顾客是否愿意驻足欣赏商场内的商品，并向店员咨询感兴趣的商品。</p>
什么是网站的使用体验
<p>潜在客户的浏览体验</p>
<p>潜在客户的浏览体验，可称之为“好看的”要素，就影响使用体验的网页要素而言，版面结构、色彩搭配、文字排版、图片等都会影响到潜在客户对网站的印象。</p>
<p>潜在客户的交互体验</p>
<p>潜在客[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangzhan-shiyongtiyan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-shiyongtiyan.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>保证网站打开速度</title>
		<link>http://www.scseoer.com/wangzhan-dakai-sudu.html</link>
		<comments>http://www.scseoer.com/wangzhan-dakai-sudu.html#comments</comments>
		<pubDate>Wed, 07 Dec 2011 14:32:39 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[浏览器]]></category>
		<category><![CDATA[网站速度]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2361</guid>
		<description><![CDATA[<p>一个网站打开速度直接影响用户浏览，特别是对于营销性网站来讲，网站打开速度慢将直接影响你的销售效果，一个高质量内容的网站，保证网站打开速度有助于用户快速浏览相关信息，存进网站流量转化率的提升。</p>
网站打开速度概述
<p style="text-align: center;"><img class="alignnone size-full wp-image-2362" title="用户浏览器与网站服务器之间交互过程" src="http://www.scseoer.com/wp-content/uploads/2011/12/wangye-zhairu.jpg" alt="用户浏览器与网站服务器之间交互过程" width="396" height="74" /></p>
<p style="text-align: center;">用户浏览器与网站服务器之间交互过程</p>
<p>以上图示简单地显示了用户浏览器与您的网站服务器之间发生交互的过程，从用户点击搜索结果到看到目标网页内容，其发生了为数不等的以上过程（数量取决于您网站的设计），我们所指的网页打开速度也就是这些过程所耗费的时间之和。</p>
<p>根据研究，网页打开速度最好保持在5秒内[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangzhan-dakai-sudu.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-dakai-sudu.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>网站优化是一定要做的吗</title>
		<link>http://www.scseoer.com/zuo-wangzhan-youhua.html</link>
		<comments>http://www.scseoer.com/zuo-wangzhan-youhua.html#comments</comments>
		<pubDate>Tue, 06 Dec 2011 05:19:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[转换率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2359</guid>
		<description><![CDATA[<p>我的网站看上去已经够好了，还需要做优化吗？作为初次尝试网站推广的新客户，您可能会认为：我缺乏对网站建设方面的基本常识，网站优化对我来说可能太专业了，我该从何下手？</p>
<p>对于这些问题，一个最简单的方法就是邀请您身边的朋友（对电脑和网络有基本了解的人选即可）对您的网站进行实地测试，您可以在一旁观察这位“用户”的使用过程，认真聆听他对于您网站的意见。这一过程可以从搜索您的关键词开始，到“用户”初步做出购买决策，即决定选择哪一个商家为止，以涵盖影响您的推广转化效果的各个环节，并尽量真实地模拟潜在客户的视角。[......]</p><p class='read-more'><a href='http://www.scseoer.com/zuo-wangzhan-youhua.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/zuo-wangzhan-youhua.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>好网站需要满足这4点</title>
		<link>http://www.scseoer.com/haowangzhan.html</link>
		<comments>http://www.scseoer.com/haowangzhan.html#comments</comments>
		<pubDate>Sun, 04 Dec 2011 16:52:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[网页质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2352</guid>
		<description><![CDATA[<p style="text-align: center;"><img class="alignnone size-full wp-image-2353" title="用户行为路径" src="http://www.scseoer.com/wp-content/uploads/2011/12/yonghu-xingwei.jpg" alt="用户行为路径" width="500" height="271" /></p>
<p style="text-align: center;">用户行为路径图解</p>
<p>上面这张图片显示了一个企业网站的潜在客户从访问搜索引擎、通过关键词搜索、浏览您的网站到与您达成交易的一系列行为路径，这一过程中涉及到几个重要环节，比如，用户搜索的关键字能否准确定位您的潜在客户，搜索结果中的描述内容能否潜在客户进行点击（关键词的选择与搜索结果优化），您可以邀请专业的SEO人员或一些顾问团队可以协助您进行优化，但以下4点需要通过您的网站上实现，这4点也将对您的网站推广效果产生很大的影响，包括：</p>
1、潜在客户能否顺利打开目标网页？
<p>网页能完整呈现在潜在客户的面前，[......]</p><p class='read-more'><a href='http://www.scseoer.com/haowangzhan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/haowangzhan.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>认真看完这篇文章</title>
		<link>http://www.scseoer.com/renzhen.html</link>
		<comments>http://www.scseoer.com/renzhen.html#comments</comments>
		<pubDate>Fri, 02 Dec 2011 08:23:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2347</guid>
		<description><![CDATA[<p>写这个SEO博客快两年时间了，100%的原创文章还是很少，但博客中90%的文章还是值得一看的，几乎每篇文章都会在绝对不改变原文大意的基础上经过了伪原创处理。</p>
<p>SEO这个行业的节奏可能相对较快，一段时间不接触，不去了解，可能觉得有点跟不上脚步，前几天写了一篇“SEO行业做付费推广”的文章，这篇主要是由于我在百度搜索“SEO优化”这个词发现搜索结果中有不少做付费推广的结果，文章开始是用实际事例来说明SEO行业与付费推广的关系，后面给出了自己的看法。</p>
<p>SEO与付费推广不冲突，传统企业可以尝试两者并用，[......]</p><p class='read-more'><a href='http://www.scseoer.com/renzhen.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/renzhen.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>网站优化有什么好处</title>
		<link>http://www.scseoer.com/wangzhan-youhua-haochu.html</link>
		<comments>http://www.scseoer.com/wangzhan-youhua-haochu.html#comments</comments>
		<pubDate>Thu, 01 Dec 2011 14:51:53 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[网站优化]]></category>
		<category><![CDATA[企业网站]]></category>
		<category><![CDATA[点击量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2342</guid>
		<description><![CDATA[<p>在进行网站推广过程中，您是否曾经遇到过以下问题，或者被这些疑问所困扰？</p>
<ol>
<li>每天的网站点击量还可以，有客户来电咨询但不多</li>
<li>安装了流量监控工具，发现大部分访客在网站上的停留时间都很短</li>
<li>认识一些实力相当的同行，知道大家提的词和排名都差不多，但他们的推广效果似乎更好</li>
<li>对已经建好的网站不满意，但说不清哪里不好，也不知道做到什么程度才叫好</li>
</ol>
<p>作为企业推广的利器，搜索引擎推广为您的网站带来了可观的访问量。每一次搜索点击都代表着一位有意向的网络用户，他们希望通过您的网站获取感兴趣的产品/服务的信息，并在比较、评[......]</p><p class='read-more'><a href='http://www.scseoer.com/wangzhan-youhua-haochu.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-youhua-haochu.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>SEO行业做付费推广合适吗</title>
		<link>http://www.scseoer.com/seo-fufei-tuiguang.html</link>
		<comments>http://www.scseoer.com/seo-fufei-tuiguang.html#comments</comments>
		<pubDate>Thu, 01 Dec 2011 05:05:52 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[付费推广]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2336</guid>
		<description><![CDATA[<p>SEO是网络营销中相对比较有优势的一种推广方式，无论是产品还是服务，都可以通过SEO来优化对应的关键词，让这些关键词在搜索引擎的搜索结果中获得不错的排名，进而让在需找这些关键词的用户主动找到你，有人很形象的做了一个比喻。</p>
<p>SEO就类似与在搜索引擎的搜索结果中给自己做广告，而且这种广告是自然的。</p>
<p>随着SEO概念和这种优化观念的深入，很多企业已经逐渐认识到它的重要性，这也使得SEO慢慢逐渐形成一个小的行业，一些传统的网站建设公司也开始进入SEO优化行业，为众多传统企业提供服务，在服务于客户的同时，自[......]</p><p class='read-more'><a href='http://www.scseoer.com/seo-fufei-tuiguang.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seo-fufei-tuiguang.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>近期DEDE程序漏洞解决</title>
		<link>http://www.scseoer.com/dede-loudong.html</link>
		<comments>http://www.scseoer.com/dede-loudong.html#comments</comments>
		<pubDate>Tue, 29 Nov 2011 09:33:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[CMS技巧]]></category>
		<category><![CDATA[DEDE程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2327</guid>
		<description><![CDATA[<p>近段时间，有客户反映网站出现异常，整个网站都被挂了黑链，导致网站前台界面变形，于是看了另外几个DEDE CMS程序制作的网站，也是一样，部分网站已经被主机商关闭。</p>
<p>“存在漏洞：该主机网站使用存在漏洞的旧版dedecms程序，并且正在发包，须升级至最新版本或打全补丁。”</p>
<p>解决方式也比较简单：</p>
<ol>
<li>首先清理下“/plus/”、“include”文件中的陌生文件；</li>
<li>根据目前的DEDE程序版本及时打上补丁；</li>
<li>依次升级DEDE程序为最新版；</li>
<li>进入模版文件，清理模板文件中的黑链，重新生成整站网页。</li>
</ol>
<p>个人对D[......]</p><p class='read-more'><a href='http://www.scseoer.com/dede-loudong.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/dede-loudong.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>百度是否遵守robots.txt协议</title>
		<link>http://www.scseoer.com/baidu-robots-txt.html</link>
		<comments>http://www.scseoer.com/baidu-robots-txt.html#comments</comments>
		<pubDate>Thu, 24 Nov 2011 17:10:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[百度蜘蛛]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2320</guid>
		<description><![CDATA[<p style="text-align: right;">— 此文由“SEO外链”投稿</p>
<p>百度不认识robot.txt，robot.txt协议成幻影！</p>
<p>最近，我在网上看到一篇报道，关于百度开始收录淘宝，淘宝客即将被终结。这篇文章我看了后，给我的反应就是：百度一直都没遵循robot.txt协议。下面我以图为证：</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2321" title="百度不遵守robots.txt协议图例" src="http://www.scseoer.com/wp-content/uploads/2011/11/baidu-robots.gif" alt="百度不遵守robots.txt协议图例" width="545" height="449" /></p>
<p style="text-align: center;">百度不遵守robots.txt协议图例</p>
<p>截止我投稿，相关收录量达到368000个，这到底是为什么呢？</p>
<p>我记得两个月前，我用自己的第一个域名 www.houbook.com 做了自己的心情日志博客，我明明写了robot.txt屏蔽蜘蛛程序了的，但是[......]</p><p class='read-more'><a href='http://www.scseoer.com/baidu-robots-txt.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidu-robots-txt.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>SOSO发布通用SEO优化指南</title>
		<link>http://www.scseoer.com/soso-seo.html</link>
		<comments>http://www.scseoer.com/soso-seo.html#comments</comments>
		<pubDate>Sat, 19 Nov 2011 04:22:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[SEO指南]]></category>
		<category><![CDATA[soso]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2297</guid>
		<description><![CDATA[<p>SOSO发薪计划鼓励用户进行搜索，SOSO首页改版吸引更多用户搜搜，加上强大的用户基础，这让更多用户开始关注 SOSO并使用它来搜素自己关注的信息，作为搜索引擎优化爱好者，无疑对其搜索结排序更加关注，那么，对SOSO的SEO，我们应该做些什么，原因很简单，因为用户关注度高，就很有可能给我们的网站带来更多的有效流量（很多网站的SOSO关键词搜索流量来源已经开始提升）。下面是SOSO官方发布的一份通用SEO指南，适合与目前主流的谷歌与百度SEO，文章底部还有SOSO的网站地图格式与提交URL删除请求[......]</p><p class='read-more'><a href='http://www.scseoer.com/soso-seo.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/soso-seo.html/feed</wfw:commentRss>
		<slash:comments>31</slash:comments>
		</item>
		<item>
		<title>follow5 关闭（资金和政策双重压力）</title>
		<link>http://www.scseoer.com/follow5-guanbi.html</link>
		<comments>http://www.scseoer.com/follow5-guanbi.html#comments</comments>
		<pubDate>Thu, 17 Nov 2011 07:41:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[follow5]]></category>
		<category><![CDATA[微博]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2284</guid>
		<description><![CDATA[<p>Follow5是2010年最受关注的微博客网站，不同于twitter及其他微博，F5致力于让分享更简单、更轻松、更自由。我们可以通过手机/MSN/QQ/Gtalk/飞信等十几种方式分享你的见闻和感受，并将它同步到其它所有微博客及社交站点。</p>
<p>Follow5是专注于分享的微博，致力于使分享变得更轻松、更方便、更自由。把此时此刻，你正在做什么、想什么、看到什么记录下来，分享给其他人。并且在微博下面显示follow5，Follow5于2009年8月6日正式开放注册。遗憾的是Follow5于2011年11[......]</p><p class='read-more'><a href='http://www.scseoer.com/follow5-guanbi.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/follow5-guanbi.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>社交网络PK搜索引擎</title>
		<link>http://www.scseoer.com/weibo-pk-search-engine.html</link>
		<comments>http://www.scseoer.com/weibo-pk-search-engine.html#comments</comments>
		<pubDate>Thu, 17 Nov 2011 07:02:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[微博]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2281</guid>
		<description><![CDATA[<p>还记得博客中一篇关于“网民规模与搜索引擎使用率”中提到：</p>
<p>“截至2011年6月底，中国网民规模达到4.85亿，较2010年底增加2770万人，增幅6.1%，截至2011年6月底，搜索引擎用户规模达到3.86 亿，较2010年底增长1153 万人，半年搜索引擎使用增长率3.1%，搜索引擎使用率79.6%。”</p>
<p>对于社交网络，目前国内比较有影响力的是新浪微博和腾讯微博，在国外来讲，则是Twitter、Facebook；对于搜索引擎，全球性的谷歌与国内的中文百度稳居榜首。</p>
社交网络与搜索引擎用户关注度
[......]<p class='read-more'><a href='http://www.scseoer.com/weibo-pk-search-engine.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/weibo-pk-search-engine.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>站内SEO优化常见问题解答</title>
		<link>http://www.scseoer.com/zhannei-seo-youhua.html</link>
		<comments>http://www.scseoer.com/zhannei-seo-youhua.html#comments</comments>
		<pubDate>Sat, 12 Nov 2011 16:28:56 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[体验]]></category>
		<category><![CDATA[内页]]></category>
		<category><![CDATA[更新]]></category>
		<category><![CDATA[问答]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2254</guid>
		<description><![CDATA[<p>对于SEO的站内优化，需要更多的是实践经验和权威资料参考，经常分析网站日志是个好习惯，既然你想在搜索引擎获取流量，对搜索引擎蜘蛛程序的基本了解和一些数据还是有必要去了解的。谷歌和百度SEO指南是很好的参考资料，而且百度SEO指南2.0比以前的版本多了很多实用和更具体的说明，谷歌网站站长帮助中心里面的很多文章也值得我们认真反复的阅读。下面是一些SEO人员提出的一些关于站内优化的常见问题，可以参考下，以免以后在工作中遇见类似的问题。</p>
<p>1、百度权重值是怎么来的，一些网站会对网站的权重赋予一个值，特别是[......]</p><p class='read-more'><a href='http://www.scseoer.com/zhannei-seo-youhua.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/zhannei-seo-youhua.html/feed</wfw:commentRss>
		<slash:comments>30</slash:comments>
		</item>
		<item>
		<title>关键词的价值是什么？</title>
		<link>http://www.scseoer.com/keywords-value.html</link>
		<comments>http://www.scseoer.com/keywords-value.html#comments</comments>
		<pubDate>Wed, 09 Nov 2011 14:25:47 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[品牌]]></category>
		<category><![CDATA[转换率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2237</guid>
		<description><![CDATA[<p>你可能非常清楚的知道你的用户在搜索什么，但是，在得到这个结论之前你必须做过全面的关键词分析，否则你不会真正的了解你的用户每天都在搜索什么词语，当然你或许知道其中的一部分，但如果你丢失一些有价值的关键词，对你的竞争对手来讲，可能都是机会。</p>
<p>可能你对你的行业非常的了解，在你所在的行业可能你就是专家，但你的用户可能确不是这样。我们选择关键词的目的是确保网页内容被集中在有价值的关键词上面，所以这样选择你可能并不会有什么损失。</p>
<p>关键词价值体现在将你的内容展示在合适的用户面前，或者说真正需要的用户展示的正确[......]</p><p class='read-more'><a href='http://www.scseoer.com/keywords-value.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/keywords-value.html/feed</wfw:commentRss>
		<slash:comments>34</slash:comments>
		</item>
		<item>
		<title>网页中的404错误/404 not found</title>
		<link>http://www.scseoer.com/404-not-found.html</link>
		<comments>http://www.scseoer.com/404-not-found.html#comments</comments>
		<pubDate>Sun, 06 Nov 2011 17:20:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[404]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2226</guid>
		<description><![CDATA[<p>很多时候在浏览网页的时候，会突然出现网页404错误提示“404 Not Found”，这些大都是由于网页本身的URL地址本身错误或URL已经改变而没有及时更新造成的，这里不排除其他造成原因（浏览器或网络环境影响）。</p>
<p>关于404错误，在百度搜索的时候，发现百度知道里面的一个很有趣的问题：</p>
<p>问：一上网就显示Error 404 &#8211; Not found The document you requested is not found.</p>
<p>一上网就显示 Error 404 &#8211; Not [......]</p><p class='read-more'><a href='http://www.scseoer.com/404-not-found.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/404-not-found.html/feed</wfw:commentRss>
		<slash:comments>24</slash:comments>
		</item>
		<item>
		<title>谨慎使用robots.txt文件 做健康网站</title>
		<link>http://www.scseoer.com/robots-txt-jiankang-wangzhan.html</link>
		<comments>http://www.scseoer.com/robots-txt-jiankang-wangzhan.html#comments</comments>
		<pubDate>Wed, 02 Nov 2011 14:08:22 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[工具]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2208</guid>
		<description><![CDATA[<p>这是今天更新的第二篇文章，“HEAD头字段总结”是个人在查看博客网站日志中遇见一些关于HEAD字段信息不清楚，查询后分享了部分内容，刚刚在阅读谷歌网站站长博客中看见“健康的网站让工作更高效、更轻松”，由此想到了某些SEO人员在使用robots.txt文件的时候可能会造成“网站不健康提示”，所以说说自己的建议，避免此类现象出现。</p>
<p>在robots.txt文件中，搜索引擎允许网站管理员将一些目录或者文件进行屏蔽，但有时候如果滥用robots.txt文件，可能会屏蔽一些重要内容，这样谷歌就会提示网站处于[......]</p><p class='read-more'><a href='http://www.scseoer.com/robots-txt-jiankang-wangzhan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/robots-txt-jiankang-wangzhan.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>HEAD头字段总结</title>
		<link>http://www.scseoer.com/head-ziduan.html</link>
		<comments>http://www.scseoer.com/head-ziduan.html#comments</comments>
		<pubDate>Wed, 02 Nov 2011 10:14:04 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[web服务器]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[数据请求]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2198</guid>
		<description><![CDATA[<p>Http除了Get和Post方法外，还有Head方法，Head获取http头信息，其中的Content-Length就是文件的大小，而作为网页中的图片文件，百度图片搜索引擎蜘蛛程序常常以Head方法探测文件HEAD头信息（2011年10月网站日志数据，谷歌采用GET方式获取），例如：</p>
<p>2011-10-30 18:06:37 HEAD /wp-content/uploads/2011/07/baidu-caishenkezhan.jpg &#8211; 123.125.71.26 HTTP/1.1[......]</p><p class='read-more'><a href='http://www.scseoer.com/head-ziduan.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/head-ziduan.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>大中、小型企业如何选择SEM计划范围</title>
		<link>http://www.scseoer.com/sem-fanwei.html</link>
		<comments>http://www.scseoer.com/sem-fanwei.html#comments</comments>
		<pubDate>Mon, 31 Oct 2011 15:44:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[SEM计划]]></category>
		<category><![CDATA[企业规模]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2180</guid>
		<description><![CDATA[<p>SEM，是搜索引擎营销（Search Engine Marketing）的缩写，我们经常所的 SEO 实际上就为 SEM 服务的，因为每个公司面对的实际情况是不一样的，大型公司和小型企业在搜索引擎营销（下面简称SEM）上面，通常面对的挑战是不一样的，你可能属于中型企业，但是如果你如果多了解下您的竞争对手，这对于帮助分析你自身的情况是很有帮助的。如果你已经了解“搜索引擎为什么这么重要”了，而且你非常喜欢SEM营销计划，那么，可以根据自己的实际情况，来选择您最佳的SEM计划。</p>
<p>大型公司往往组织结构比[......]</p><p class='read-more'><a href='http://www.scseoer.com/sem-fanwei.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/sem-fanwei.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>百度站长平台中的 Sitemap 工具</title>
		<link>http://www.scseoer.com/baidu-zhanzhang-sitemap.html</link>
		<comments>http://www.scseoer.com/baidu-zhanzhang-sitemap.html#comments</comments>
		<pubDate>Sat, 29 Oct 2011 04:12:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站地图]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2172</guid>
		<description><![CDATA[<p>百度站长平台内侧很久时间了，目前还是需要邀请码才能使用 Sitemap 工具，使用过谷歌站长管理员工具的SEO同行都清楚，我们可以通过站长工具向谷歌提交网站地图，如果网站本身的内容不存在任何问题，那么，提交网站地图后，对网站收录以及收录量的提高是有帮助的，特别是对于新站而且又很懒站长来讲，想让网页被收录，这样的方式毕竟是相对简单的。</p>
关于百度站长平台
<p>百度站长平台是一个服务于百度网页收录的数据提交平台。借助百度站长平台，我们可以：</p>
<ol>
<li>向百度推送您网站希望被百度收录的数据；</li>
<li>在一定程度上减轻抓取产[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/baidu-zhanzhang-sitemap.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidu-zhanzhang-sitemap.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>Bert-G：做SEO还不如做人</title>
		<link>http://www.scseoer.com/bert-g-seo.html</link>
		<comments>http://www.scseoer.com/bert-g-seo.html#comments</comments>
		<pubDate>Thu, 27 Oct 2011 13:49:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[重庆SEO]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2159</guid>
		<description><![CDATA[<p>作者介绍：Bert-G，一个爱好SEO的重庆人。</p>
<p>文章的题目才是文章的生存力，你看完这篇文章后感触很深，看不懂看两遍，我不会把浅显的道理写出来，需要你们去领悟，授人以鱼不如授人以渔！</p>
<p>跟我合租的兄弟比我几个月，别看个头不高，但人家年纪轻轻就是一家大型国有企业的人力资源经理，这可不是吹，是人家的确有这个实力！</p>
<p>我们每天晚上都在家做饭吃，我在家是一个很懒的人，厨艺更不用提，但是，我那兄弟不仅能做各种各样的菜，而且味道还不错，我只能惊叹自己，不仅没有地位，工资也不值一提，做事情总是拖拖拉拉，怨声载道，[......]</p><p class='read-more'><a href='http://www.scseoer.com/bert-g-seo.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/bert-g-seo.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>222.77.187.33与百度蜘蛛(BaiDu Spider)IP</title>
		<link>http://www.scseoer.com/baidu-spider-222-77-187-33.html</link>
		<comments>http://www.scseoer.com/baidu-spider-222-77-187-33.html#comments</comments>
		<pubDate>Wed, 26 Oct 2011 06:07:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[百度蜘蛛]]></category>
		<category><![CDATA[网站日志]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2152</guid>
		<description><![CDATA[<p>在经常分析网站日志文件的时候，总会发现百度蜘蛛（BaiDu Spider）IP中出现222.77.187.33，经查询，该IP是位于福建省福州市电信IP，而百度蜘蛛IP是位于北京的联通IP。在分析该IP的抓取行为时候发现，该IP只抓取网页首页，经查询，该IP为站长工具的一个友情链接检测程序，该程序默认模拟百度蜘蛛程序抓取页面。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-2153" title="站长工具的友情链接检测界面" src="http://www.scseoer.com/wp-content/uploads/2011/10/link-china.jpg" alt="站长工具的友情链接检测界面" width="600" height="87" /></p>
<p style="text-align: center;">站长工具的友情链接检测界面</p>
<p>该工具域名“link.chinaz.com”对应的IP为“222.77.187.33”，位于福建省福州市。</p>
<p>百度蜘蛛IP（根据网站日志文件统[......]</p><p class='read-more'><a href='http://www.scseoer.com/baidu-spider-222-77-187-33.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidu-spider-222-77-187-33.html/feed</wfw:commentRss>
		<slash:comments>24</slash:comments>
		</item>
		<item>
		<title>对与SEO服务 别再提排名第一的要求</title>
		<link>http://www.scseoer.com/seofuwu-diyi.html</link>
		<comments>http://www.scseoer.com/seofuwu-diyi.html#comments</comments>
		<pubDate>Sun, 23 Oct 2011 09:08:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[关键词]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2139</guid>
		<description><![CDATA[<p>每天都会一些需要关键词排名的客户咨询，非常高兴你们对何清勇的信任，大多数客户还是非常容易沟通的，因为他们对SEO比较了解，非常感谢那些一直支持我的客户，但对于一些客户咨询，刚刚开始就直接问：“把XXX关键词做到第一”，这让我们不知道如何与之沟通，所以，一些咨询问题我还是需要先把它说出来，以便在以后与客户更好的沟通。</p>
<p>我想过滤掉那些一开始就要求我把关键词做到第一的客户咨询，我相信除了像拥有20多年的SEO牛人迈克·摩尔以外，没有几个可以控制搜索引擎的排序结果，况且那些发生在谷歌搜索引擎，对于中文搜[......]</p><p class='read-more'><a href='http://www.scseoer.com/seofuwu-diyi.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seofuwu-diyi.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>站内优化需要注意的5个方面</title>
		<link>http://www.scseoer.com/zhannei-youhua.html</link>
		<comments>http://www.scseoer.com/zhannei-youhua.html#comments</comments>
		<pubDate>Sat, 22 Oct 2011 16:15:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[性能优化]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[网页内容]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2134</guid>
		<description><![CDATA[<p>如果真的要给SEO分个类别，可以分站内SEO优化和站外SEO优化两种，站外优化简单的讲就是如何推广你的网站，在SEO中经常说到做外部链接，就可以理解为对网站进行站外SEO优化，站内优化不仅仅是做内部链接这么简单，那么，站内优化需要做那些呢？</p>
<p>通俗的讲，站内优化更像是在做一个更加标准、更让用户喜欢的网页，从这个角度出发去思考，就可以得到站内优化需要做的一些东西。</p>
网页代码的标准化
<p>由于蜘蛛程序对网页代码的要求较高，但网页代码的标准化不仅仅为蜘蛛程序而做，因为你面对的可能更多的使用不同浏览器的用户，[......]</p><p class='read-more'><a href='http://www.scseoer.com/zhannei-youhua.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/zhannei-youhua.html/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>避免被搜索引擎忽略掉重要内容</title>
		<link>http://www.scseoer.com/hulue-zhongyao-neirong.html</link>
		<comments>http://www.scseoer.com/hulue-zhongyao-neirong.html#comments</comments>
		<pubDate>Fri, 21 Oct 2011 13:53:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网站收录]]></category>
		<category><![CDATA[网页代码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2129</guid>
		<description><![CDATA[<p>如果你已经消除了蜘蛛陷阱，那么，搜索引擎蜘蛛程序可以正常的爬行网页了，那么，还需要注意的是，蜘蛛程序在爬行网页的时候，为了节约服务器资源，保证高效的运行效率，他可能会忽略掉网页中一些内容，我们尽量要避免蜘蛛程序忽略掉网页的重要内容，为了更好的进行SEO工作，你可能需要对网页进行一些必要的改进。</p>
精简网页
<p>蜘蛛程序不太喜欢爬行太过于臃肿的网页，为了保持自身的高效率运行，蜘蛛程序花同样的时间可能会爬取更多精简的网页，每个蜘蛛程序都有自己的限制程序，太大的网页可能会导致不能完全爬行，甚至根本不去爬行这[......]</p><p class='read-more'><a href='http://www.scseoer.com/hulue-zhongyao-neirong.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/hulue-zhongyao-neirong.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>影响SEO的7个蜘蛛陷阱</title>
		<link>http://www.scseoer.com/seo-zhizhu-xianjing.html</link>
		<comments>http://www.scseoer.com/seo-zhizhu-xianjing.html#comments</comments>
		<pubDate>Tue, 18 Oct 2011 16:06:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[蜘蛛程序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2118</guid>
		<description><![CDATA[<p>在SEO工作中，网页被收录是基础工作，但对于搜索引擎来讲，极少情况会100%收录你网站的所有网页，搜索引擎的爬虫程序设计的再精巧，也难以逾越所谓的蜘蛛陷阱（蜘蛛陷进）。</p>
<p>蜘蛛陷阱是组织蜘蛛程序爬行网站的障碍物，通常是那些显示网页的技术方法，目前很多浏览器在设计的时候考虑过这些因素，所以可能网页界面看起来非常正常，但这些蜘蛛陷阱会对蜘蛛程序赞成障碍，如果消除这些蜘蛛陷阱，可以是蜘蛛程序收录更多的网页。</p>
<p>很对蜘蛛陷阱都是先进的技术方法，开发成本相对也较大，但是这些的确会影响搜索引擎对你网站的了解，甚[......]</p><p class='read-more'><a href='http://www.scseoer.com/seo-zhizhu-xianjing.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seo-zhizhu-xianjing.html/feed</wfw:commentRss>
		<slash:comments>17</slash:comments>
		</item>
		<item>
		<title>网站跳出率高的四个原因</title>
		<link>http://www.scseoer.com/tiaochulv-4.html</link>
		<comments>http://www.scseoer.com/tiaochulv-4.html#comments</comments>
		<pubDate>Fri, 14 Oct 2011 02:12:56 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[用户体验]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[调出率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2097</guid>
		<description><![CDATA[<p>网站跳出率是指在访问您的网站时只浏览了一个网页的访问者所占的百分比。跳出率高的原因有很多种。例如，用户可能因为网站的设计或可用性问题在入口页就离开您的网站。或者因为某些非常具体的理由，导致网站上某些网站跳出率高。以下四个原因可能会导致高跳出率。</p>
<p>一、单页网站跳出率往往较高</p>
<p>如果您的网站只有一个网页（如博客），网页统计工具不会记录多次浏览，除非用户重新载入该网页。因此，单页网站的跳出率通常较高。</p>
<p>二、统计代码出错</p>
<p>如果您的网站拥有多个网页，但跳出率仍然较高，那么就需要查看是否为所有的网页添加了统计[......]</p><p class='read-more'><a href='http://www.scseoer.com/tiaochulv-4.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/tiaochulv-4.html/feed</wfw:commentRss>
		<slash:comments>30</slash:comments>
		</item>
		<item>
		<title>如何写博客才能吸引用户</title>
		<link>http://www.scseoer.com/boke-yonghu.html</link>
		<comments>http://www.scseoer.com/boke-yonghu.html#comments</comments>
		<pubDate>Thu, 13 Oct 2011 10:35:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[博客]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2094</guid>
		<description><![CDATA[<p>如果您有网站但没有博客，请考虑创建一个博客，撰写博客是与志趣相投的人进行联系的绝佳方式，也是推广您网站或产品的极好途径。博客的创建和更新非常方便，丰富实用的原创博客内容会吸引读者经常访问您的博客。以下是充分发挥博客作用的一些窍门。</p>
为博客撰写精彩的内容
<p>文笔流畅，并要经常更新：网站的内容实用而有趣是优质博客的必备条件，而经常更新的博客更容易吸引读者光顾。与其每天都发布蹩脚内容，还不如每周发表一篇精彩的博文。建议通过搜索引擎搜索熟悉领域中感兴趣的主题。如果找不到合适的结果，可以自己写一篇关于该主题[......]</p><p class='read-more'><a href='http://www.scseoer.com/boke-yonghu.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/boke-yonghu.html/feed</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
		<item>
		<title>让SEO回归简单的营销思路</title>
		<link>http://www.scseoer.com/seo-yingxiao.html</link>
		<comments>http://www.scseoer.com/seo-yingxiao.html#comments</comments>
		<pubDate>Wed, 12 Oct 2011 15:53:21 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEM营销]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[营销]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2083</guid>
		<description><![CDATA[<p>在刚刚认识SEO的时候，觉得SEO是一项技术行很强的工作，比如在标题和页面堆砌下关键词，在网页底部做一大堆关键词链接，不在网页上搞点什么动作，就觉得有点对不住搜索引擎，当然不能否定这样做就完全错误，目前这样做的网站，关键词好的多的是，如果把网页打印出来让你阅读，我相信能够认真听你读完的，绝对不是你的用户。</p>
<p>以前说过网络推广与网络营销，其中SEO只是网络推广中很多方式之一，其最终是为了营销服务，SEO的中文意思是搜索引擎优化，获取网页流量，从流量中筛选用户的平台是搜索引擎，那么，除了搜索引擎可以给[......]</p><p class='read-more'><a href='http://www.scseoer.com/seo-yingxiao.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seo-yingxiao.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>谷歌成功秘诀：将用户利益放在首位</title>
		<link>http://www.scseoer.com/google-yonghuliyi.html</link>
		<comments>http://www.scseoer.com/google-yonghuliyi.html#comments</comments>
		<pubDate>Mon, 10 Oct 2011 04:33:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2064</guid>
		<description><![CDATA[<p>对于全球性搜索引擎的谷歌来讲，一路走来，并且长期高居搜索引擎之首，面对反垄断调查早已经成为家常便饭，这次，谷歌面对FTC的调查，谷歌正在全力配合。</p>
<p>其实，谷歌公司在很多领域都面临激烈的竞争，但仍然在很多行业积极创新，并且秉承开放的理念，方便用户访问与之竞争的服务。针对这次FTC的调查，Google执行董事长埃里克·施密特表示，主要还是竞争对手的投诉，而且施密特也表示：“希望调查过程能以有针对性且公平的方式展开，方便我们继续创造就业岗位，并开发令用户满意的产品。”</p>
<p>施密特表示，Google的成功源[......]</p><p class='read-more'><a href='http://www.scseoer.com/google-yonghuliyi.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/google-yonghuliyi.html/feed</wfw:commentRss>
		<slash:comments>31</slash:comments>
		</item>
		<item>
		<title>用户行为与搜索结果质量</title>
		<link>http://www.scseoer.com/user-behavior-search-results-quality.html</link>
		<comments>http://www.scseoer.com/user-behavior-search-results-quality.html#comments</comments>
		<pubDate>Wed, 21 Sep 2011 15:55:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2041</guid>
		<description><![CDATA[<p>对于搜索引擎，用户行为数据的检测、统计与运用一直在进行，随着前段时间的谷歌搜索结果中的+1按钮、搜搜分享按钮，近期的百度知道推荐按钮的推出，搜索引擎已经将用户行为运用到自己的搜索结果当中，对于搜索引擎自身来讲，这无疑是更加精确的用户行为数据统计，由用户推荐而改善的搜索结果，无疑是最有利于用户体验的，这也说明了用户评价值对一个网页的重要性，在后期，用户行为极有可能成为影响搜索结果众多因素中重要环节。</p>
<ul>
<li>用户行为分析</li>
<li>基于用户行为的启示</li>
<li>用户需求:目标、行为、说法</li>
<li>用户行为的特征及缓存的应用</li>
<li>用户行[......]</li></ul><p class='read-more'><a href='http://www.scseoer.com/user-behavior-search-results-quality.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-behavior-search-results-quality.html/feed</wfw:commentRss>
		<slash:comments>37</slash:comments>
		</item>
		<item>
		<title>影响网页收录的一些因素</title>
		<link>http://www.scseoer.com/effects-page-factors.html</link>
		<comments>http://www.scseoer.com/effects-page-factors.html#comments</comments>
		<pubDate>Mon, 19 Sep 2011 16:57:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[收录]]></category>
		<category><![CDATA[结构]]></category>
		<category><![CDATA[网页内容]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2032</guid>
		<description><![CDATA[<p>网页收录问题是SEO中普遍存在的问题，而网站中网页收录量可以为除自身外的其他网页提供相关性很好的内部链接，网站收录方面的文章博客中也写过一些。</p>
<ul>
<li>如何提高网站收录量</li>
<li>百度收录与敏感词汇</li>
<li>新站网站收录问题</li>
<li>网页性能优化</li>
</ul>
<p>搜索引擎爬虫程序进入网页的方式是通过链接，抓取网页链接的方式是广度和深度，但从自身服务器的资源消耗来看，一般会考虑广度优先策略。</p>
<p>对于搜索引擎来讲，自身服务器中不会存在很多对于用户意义不大的网页内容，首先这样可以降低自身服务器资源的占用，另外对于搜索结果的用户体验，也有很大的帮助[......]</p><p class='read-more'><a href='http://www.scseoer.com/effects-page-factors.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/effects-page-factors.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>网站速度诊断 百度统计</title>
		<link>http://www.scseoer.com/website-speed-diagnosis.html</link>
		<comments>http://www.scseoer.com/website-speed-diagnosis.html#comments</comments>
		<pubDate>Fri, 16 Sep 2011 08:30:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站速度]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2018</guid>
		<description><![CDATA[<p>随着百度统计统计的推出，近段时间推出了一些非常实用的工具，比如SEO建议、搜索词排名、百度收录量查询等，今天进百度统计看见“网站速度诊断”工具，忍不住测试了下。</p>
网站速度诊断
<p style="text-align: center;"><img class="alignnone size-full wp-image-2019" title="利用百度统计中的网站速度测试对 www.scseoer.com 的测试结果" src="http://www.scseoer.com/wp-content/uploads/2011/09/baidu-tongji-wangzhan-sudu.jpg" alt="利用百度统计中的网站速度测试对 www.scseoer.com 的测试结果" width="543" height="311" /></p>
<p style="text-align: center;">利用百度统计中的网站速度测试对博客的测试结果</p>
<p>测试点：北京电信、北京网通（百度蜘蛛的爬行可能没有那么好）</p>
<p>对于网站速度方面的提升，对于网页性能方面的改善有很大的作用，网页速度得分越高，网页性能越好，那么，爬虫程序在同等条件下，爬行的数量就可能越多，那么，收录量可能就会更好点。百度统计这个网站速度测试工具与谷歌的 Page[......]</p><p class='read-more'><a href='http://www.scseoer.com/website-speed-diagnosis.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/website-speed-diagnosis.html/feed</wfw:commentRss>
		<slash:comments>28</slash:comments>
		</item>
		<item>
		<title>谷歌反向链接说明及其网站站长工具的链接调整</title>
		<link>http://www.scseoer.com/google-reverse-link.html</link>
		<comments>http://www.scseoer.com/google-reverse-link.html#comments</comments>
		<pubDate>Wed, 14 Sep 2011 09:31:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[谷歌]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=2003</guid>
		<description><![CDATA[<p>可能绝大部分非常在乎网站反向链接（外部链接）的SEO朋友对于谷歌的反向链接数量始终琢磨不透，而且根据百度的相关搜索来看，搜索“增加谷歌反向链接”、“谷歌没有反向链接”等类似关键词的用户还很多。</p>
<p>反向链接是搜索引擎蜘蛛程序在爬行或者编制索引的过程发现的链接信息，谷歌对于这些信息不会全部列出，而是列出所谓精选的网页信息，这也是我们为什么以yahoo的查询结果作为参考，因为yahoo的查询数量更接近真实值，而百度的domain命令则是查询域名相关分布信息。</p>
<p>谷歌link:命令查询出来的反向链接一般是：[......]</p><p class='read-more'><a href='http://www.scseoer.com/google-reverse-link.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/google-reverse-link.html/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>新手如何学习SEO？</title>
		<link>http://www.scseoer.com/xinshou-seo.html</link>
		<comments>http://www.scseoer.com/xinshou-seo.html#comments</comments>
		<pubDate>Sat, 10 Sep 2011 09:38:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[SEO学习]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1997</guid>
		<description><![CDATA[<p>近期有一些初学SEO的朋友在QQ上咨询一些新手相关问题，有时候稍忙点，可能没有来得及回答，先说声抱歉哈，关于新手对于SEO的学习，你目前可能存在这几个疑问：</p>
<ol>
<li>刚刚听说SEO，我很有兴趣，我该如何学习？</li>
<li>我不会程序，能学习好SEO吗？</li>
<li>我给网站做了大量的外部链接，但一点效果都没有，SEO该如何做？</li>
</ol>
<p>其实每个人都是从不懂开始学习，一般最先接触的都是理论知识，带着这些理论，同时自己的实践去证明这些理论，从实践中发现问题，通过搜索或咨询的方式来解决问题，最后慢慢形成一套属于自己的SEO思路。</p>
理论是[......]<p class='read-more'><a href='http://www.scseoer.com/xinshou-seo.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/xinshou-seo.html/feed</wfw:commentRss>
		<slash:comments>32</slash:comments>
		</item>
		<item>
		<title>博客内页权重有所降低</title>
		<link>http://www.scseoer.com/neiye-quanzhongjiangdi.html</link>
		<comments>http://www.scseoer.com/neiye-quanzhongjiangdi.html#comments</comments>
		<pubDate>Fri, 09 Sep 2011 11:37:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1987</guid>
		<description><![CDATA[<p>随着这几天百度的更新，该SEO博客有部分内容页面的权重有所降低，从长尾关键词前三到突然消失，通过查询，该内页在整个域中（scseoer.com）的权重降低。</p>
<p>我是博客的编辑，同时也是读者，在很多时候，自己会经常看看曾经转载和原创的一些文章，在阅读的过程中经常会发现一些问题，最基本的文字错误就不少，还有一些是思路上的，可能以前的想法过于粗燥，所以在阅读的过程发现问题，会立即编辑该文章。</p>
<p>另外，当对以前写过的内容有新的认识，也就会直接对以前发布的信息直接进行更改，不喜欢重新再写一篇来描述同一个问题，[......]</p><p class='read-more'><a href='http://www.scseoer.com/neiye-quanzhongjiangdi.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/neiye-quanzhongjiangdi.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>软404对网站的影响</title>
		<link>http://www.scseoer.com/ruan-404.html</link>
		<comments>http://www.scseoer.com/ruan-404.html#comments</comments>
		<pubDate>Thu, 01 Sep 2011 12:57:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[用户体验]]></category>
		<category><![CDATA[抓取]]></category>
		<category><![CDATA[蜘蛛程序]]></category>
		<category><![CDATA[错误代码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1946</guid>
		<description><![CDATA[<p style="text-align: center;"><img class="alignnone size-full wp-image-1948" title="谷歌爬虫在抓取中遇见到的软404错误" src="http://www.scseoer.com/wp-content/uploads/2011/09/ruan-404.jpg" alt="谷歌爬虫在抓取中遇见到的软404错误" width="485" height="145" /></p>
<p style="text-align: center;">谷歌爬虫在抓取中遇见到的软404错误</p>
<p>经常使用谷歌网站管理员工具的朋友可能会在故障诊断中的抓取错误中发现一些软404错误提示，在以前的“404错误对网站的影响”一文中提到过软404。</p>
<p>一般情况下，当请求的网页发生错误的时候，会出现两种错误代码信息，一种就是我们经常说的404，另一种就是软404。</p>
<p>按正常的思路，当一个网页不存在的时候，会返回一个404代码来表示，软404是这些不存在的网页返回的不是正常的404错误代码，而是200代码（日志代码）。</p>
软404与404的区别
<ul>
<li>软404：向用户返回[......]</li></ul><p class='read-more'><a href='http://www.scseoer.com/ruan-404.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/ruan-404.html/feed</wfw:commentRss>
		<slash:comments>78</slash:comments>
		</item>
		<item>
		<title>搜狐博客robots.txt出现低级错误</title>
		<link>http://www.scseoer.com/blog-sohu-com-robots-txt.html</link>
		<comments>http://www.scseoer.com/blog-sohu-com-robots-txt.html#comments</comments>
		<pubDate>Wed, 31 Aug 2011 09:51:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[robots]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1928</guid>
		<description><![CDATA[<p>关于robots.txt文件，它是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。</p>
<p>当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。</p>
<p>下面是搜狐博客的robots.txt文件：</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1929" title="搜狐博客robots.txt出现低级错误" src="http://www.scseoer.com/wp-content/uploads/2011/08/blog-sohu-com-robots-txt.jpg" alt="搜狐博客robots.txt出现低级错误" width="292" height="310" /></p>
<p style="text-align: center;">搜狐博客（blog.sohu.com）robots.txt 文件</p>
<p>由于搜狐博客下面[......]</p><p class='read-more'><a href='http://www.scseoer.com/blog-sohu-com-robots-txt.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/blog-sohu-com-robots-txt.html/feed</wfw:commentRss>
		<slash:comments>32</slash:comments>
		</item>
		<item>
		<title>网站被黑 百度是如何对待的</title>
		<link>http://www.scseoer.com/wangzhan-beihei.html</link>
		<comments>http://www.scseoer.com/wangzhan-beihei.html#comments</comments>
		<pubDate>Sat, 27 Aug 2011 15:54:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1918</guid>
		<description><![CDATA[什么是“网站被黑”？
<p>网站被黑，是指黑客利用网站的程序、设置等方面的安全漏洞或管理员安全疏忽（如密码复杂度低），未经管理员授权，对网站进行了篡改。</p>
如何处理网站被黑？
<ul>
<li>分析系统日志、服务器日志，检查自己站点的页面数量、流量等是否有异常波动，是否存在异常访问或操作日志；</li>
<li>检查网站文件是否有不正常的修改，尤其是首页等重点页面；</li>
<li>网站页面是否引用了未知站点的资源（图片、JS等），是否被放置了外站的异常链接；</li>
<li>检查网站是否有不正常增加的文件或目录；</li>
<li>检查网站目录中是否有非管理员打包的网站源码、未知tx[......]</li></ul><p class='read-more'><a href='http://www.scseoer.com/wangzhan-beihei.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wangzhan-beihei.html/feed</wfw:commentRss>
		<slash:comments>50</slash:comments>
		</item>
		<item>
		<title>百度SEO指南 V2.0</title>
		<link>http://www.scseoer.com/baidu-seo-guide-2.html</link>
		<comments>http://www.scseoer.com/baidu-seo-guide-2.html#comments</comments>
		<pubDate>Sat, 27 Aug 2011 15:38:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[SEO指南]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1913</guid>
		<description><![CDATA[<p>通过《百度SEO指南 V2.0》，互联网创业者将获得明确、正规的搜索引擎优化标准，合理、可持续提升网站流量，获得长久、稳定的发展，并促进行业的良性发展。</p>
<p>搜索引擎与SEO行为间是一种良性的共生关系，比如很多优质的网站是用Flash或者Ajax做的，搜索引擎就无法很好的爬取和索引。建站者在了解了SEO的一些基本原理后，可以通过对网站的合理优化，使这些优质资源更好的发挥其检索效果，改善用户的搜索体验。</p>
<p>同时，对于中国这样的新兴市场，传统的中小企业对于如何触网，如何做互联网营销，并无多少经验，在广大的[......]</p><p class='read-more'><a href='http://www.scseoer.com/baidu-seo-guide-2.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidu-seo-guide-2.html/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>百度更新了 你还能淡定吗</title>
		<link>http://www.scseoer.com/baidugengxin.html</link>
		<comments>http://www.scseoer.com/baidugengxin.html#comments</comments>
		<pubDate>Thu, 25 Aug 2011 13:55:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[快照]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1895</guid>
		<description><![CDATA[<p>百度作为最大中文搜索引擎，是国内绝大部分SEO工作的重要平台，原因很简单，百度的用户多，给自己网站带来的流量比例大。根据今年CNNIC统计，中国4.85亿网民中有3.0左右网民在使用搜索引擎，而百度站在NA和NC之间，不得不让Seoer重视。</p>
<p>在百度SEO中，我们都希望看见百度更新，因为百度更新了，我们的网站关键词排名可能就上升了，特别是遇见大更新，那让更多SEO人爽的不得了，所以，百度更新成为众多SEO关注重点，而百度更新时间相信大家都非常清楚了。</p>
百度多久更新一次
<p>按照以往的经验，百度在周三[......]</p><p class='read-more'><a href='http://www.scseoer.com/baidugengxin.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidugengxin.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>站内SEO优化常见问题（一）</title>
		<link>http://www.scseoer.com/optimization-problems-1.html</link>
		<comments>http://www.scseoer.com/optimization-problems-1.html#comments</comments>
		<pubDate>Sat, 20 Aug 2011 11:40:47 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1869</guid>
		<description><![CDATA[<p>1、网页的内页链接过多会不会降低网页的权重？</p>
<p>网页内部链接数量得站在全局看问题。链接数量过多，每个链接得到的权重就越小，但如果A页面给B页面的链接多，C页面给A页面的也就越多（A、B、C不代表单个页面），这样综合起来也就差不多平衡了，犹如大型门户网站，页面链接几百甚至上千，页面多了，也就不寸在什么流失了。另外LEE曾经提过，如果网页体积太大，造成抓取不完全，但链接信息提取是完整的，搜索引擎提取链接的数量超乎我们的想象。</p>
<p>2、现在URL中带关键词作用大不大？</p>
<p>有作用，但很小，是很多因素中的一点，而[......]</p><p class='read-more'><a href='http://www.scseoer.com/optimization-problems-1.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/optimization-problems-1.html/feed</wfw:commentRss>
		<slash:comments>27</slash:comments>
		</item>
		<item>
		<title>百度音乐播放器自动播放</title>
		<link>http://www.scseoer.com/baidu-music-player-autoplay.html</link>
		<comments>http://www.scseoer.com/baidu-music-player-autoplay.html#comments</comments>
		<pubDate>Sat, 20 Aug 2011 05:33:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[网页性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1861</guid>
		<description><![CDATA[<p>最近一企业网站客户有要求在网页插入背景音乐，以前客户还没有类似的要求，从SEO角度考虑，音乐文件相对较大，这样在一定程度上会影响网页载入速度，网页性能会受到影响，另外，较大文件加载，会浪费很多带宽流量，这样对于限制流量的主机来讲，无疑是个问题，如果整站加载，其结果会让您吃惊。</p>
如何让百度音乐播放器自动播放
<p>在找到合适的音乐后，在分享代码后面加上下面的代码：</p>
<p>&#38;autoPlay=true&#38;loop=true</p>
<p>加入以上代码保存后，音乐播放器将会自动播放所选歌曲。</p>
大文件加载如果优化网[......]<p class='read-more'><a href='http://www.scseoer.com/baidu-music-player-autoplay.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/baidu-music-player-autoplay.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>9月底回四川发展 川内SEO同行多交流</title>
		<link>http://www.scseoer.com/sichuan-seo-communication.html</link>
		<comments>http://www.scseoer.com/sichuan-seo-communication.html#comments</comments>
		<pubDate>Thu, 18 Aug 2011 12:55:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[Seoer]]></category>
		<category><![CDATA[企业]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1844</guid>
		<description><![CDATA[<p>不知不觉来深圳已经4年了，这是我毕业后进入的第一个城市，毕业前对深圳的幻想和现在的实际感触相差不大，本地资源非常丰富，这也成为很多年轻创业者的理想城市。</p>
<p>随着时间的增长，对于80后的我们来讲，压力都变得很大，对自身的认识也变得更加清晰，职业规划变动之前往往也会深思熟虑再做决定，个人属于比较恋家的那种，无论是个人发展还是家庭因素，回川发展是最终决定。对于深圳这边的朋友，很舍不得，几年了，感情都非常好，今天一位老上司说道：天下没有不散的宴席。大家首先要保护好身体，对于这么美丽的深圳，以后肯定会来看望[......]</p><p class='read-more'><a href='http://www.scseoer.com/sichuan-seo-communication.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/sichuan-seo-communication.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>向谷歌提交针对性抓取请求</title>
		<link>http://www.scseoer.com/google-submit-request-crawl.html</link>
		<comments>http://www.scseoer.com/google-submit-request-crawl.html#comments</comments>
		<pubDate>Mon, 15 Aug 2011 07:49:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[爬虫程序]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1834</guid>
		<description><![CDATA[<p>谷歌网站站长工具中的“Googlebot 抓取方式”功能提供了一种向Google提交全新的URL以及更新URL的收录方法。如果我们利用此工具像Googlebot那样成功抓取了一个URL，那么，我们将会看到提交该URL到谷歌索引这一选项。当我们以这样的方式提交URL后，通常在一天之内，Googlebot就会抓取该URL。然后，谷歌会考虑是否将其列入到索引中。</p>
<p>谷歌网站管理员工具的这一新功能可在多种情况下为站长提供帮助：如果我们刚刚推出了一个新网站，或者增加了一些重要的新页面，您可以要求Google[......]</p><p class='read-more'><a href='http://www.scseoer.com/google-submit-request-crawl.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/google-submit-request-crawl.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>谷歌给站长的小惊喜【生日祝福】</title>
		<link>http://www.scseoer.com/google-webmaster-surprise-birthday-wishes.html</link>
		<comments>http://www.scseoer.com/google-webmaster-surprise-birthday-wishes.html#comments</comments>
		<pubDate>Sat, 13 Aug 2011 15:59:41 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[谷歌]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1811</guid>
		<description><![CDATA[<p>正常情况，谷歌会显示自己的默认LOGO标志，当到某一个纪念日的时候，谷歌会显示相应的纪念标志。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1812" title="Google默认LOGO标志" src="http://www.scseoer.com/wp-content/uploads/2011/08/google-logo.jpg" alt="Google默认LOGO标志" width="293" height="119" /></p>
<p style="text-align: center;">Google默认LOGO标志</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1813" title="谷歌给站长的小惊喜-生日祝福" src="http://www.scseoer.com/wp-content/uploads/2011/08/google-happy-birthday.gif" alt="谷歌给站长的小惊喜-生日祝福" width="293" height="139" /></p>
<p style="text-align: center;">谷歌给站长的小惊喜</p>
<p>习惯性进入谷歌网站管理员工具查看信息，在没有登录账户的时候，谷歌主页显示的是默认的LOGO标志，成功登录账户后，默认的LOGO改善了，第一感觉还以为又是什么纪念日子，讲鼠标放在LOGO图片上，图片提示文字为“生日快乐，清勇！”（图片的Alt标签和链接的Title标签），链接URL是个人资料页面。</p>
<p>谷歌搜索引擎在很多细节影响着站长，从谷歌网站管理员工[......]</p><p class='read-more'><a href='http://www.scseoer.com/google-webmaster-surprise-birthday-wishes.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/google-webmaster-surprise-birthday-wishes.html/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>SEO人才市场分析【2011】</title>
		<link>http://www.scseoer.com/seo-rencai-2011.html</link>
		<comments>http://www.scseoer.com/seo-rencai-2011.html#comments</comments>
		<pubDate>Thu, 11 Aug 2011 19:02:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[互联网]]></category>
		<category><![CDATA[搜索引擎]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1792</guid>
		<description><![CDATA[<p>2011年的互联网，网民数量一路攀升，电子商务进入白热化。中国互联网信息中心第28次中国互联网络发展状况统计报告显示，截至2011年6月底，中国网民规模达到4.85亿，搜索引擎用户规模达到3.86 亿，搜索引擎使用率79.6%，稳居互联网应用榜首。</p>
<p>搜索引擎优化（SEO）作为低成本的搜索引擎营销（SEM）方式被电子商务行业高度关注，SEO人才需求也大幅上升，下面是SEO人才网的一份分析报告，从SEO流量价值、人才市场、SEO人才供求各方面进行了综合分析。</p>
SEO价值在那里？
<p>“腾讯科技讯（雷建平[......]</p><p class='read-more'><a href='http://www.scseoer.com/seo-rencai-2011.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/seo-rencai-2011.html/feed</wfw:commentRss>
		<slash:comments>18</slash:comments>
		</item>
		<item>
		<title>关键词区域排名与数据标准化</title>
		<link>http://www.scseoer.com/keywords-regional-rankings-data-standardization.html</link>
		<comments>http://www.scseoer.com/keywords-regional-rankings-data-standardization.html#comments</comments>
		<pubDate>Tue, 09 Aug 2011 18:06:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO常见问题]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[区域排名]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[标准化]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1778</guid>
		<description><![CDATA[关键词区域排名
<p>关键词区域排名主要是针对用户搜索某一关键词，搜索引擎的搜索结果靠前的位置出现地区网站，这在百度表现的比较明显，例如深圳用户搜索关键词“SEO”，百度搜索结果出现“深圳SEO-网络营销-贞元网络旗下【实战营SEO团队】”：</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1780" title="关键词“SEO”在百度的区域排名结果" src="http://www.scseoer.com/wp-content/uploads/2011/08/quyu-paiming-jieguo.jpg" alt="关键词“SEO”在百度的区域排名结果" width="604" height="412" /></p>
<p style="text-align: center;">关键词“SEO”在百度的区域排名结果</p>
数据标准化
<p>数据标准化是指对于用户搜索的各组数据，搜索引擎都会先用其除以一个通用变量，以便消除该变量对数据产生的影响。通过这种方式，用户可以对各组数据的内在特征进行比较。如果不对这些结果进行标准化，而是显示绝对评级，那么来[......]</p><p class='read-more'><a href='http://www.scseoer.com/keywords-regional-rankings-data-standardization.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/keywords-regional-rankings-data-standardization.html/feed</wfw:commentRss>
		<slash:comments>20</slash:comments>
		</item>
		<item>
		<title>wordpress 链接关系(XFN)与Nofollow标签</title>
		<link>http://www.scseoer.com/wordpress-xfn-nofollow.html</link>
		<comments>http://www.scseoer.com/wordpress-xfn-nofollow.html#comments</comments>
		<pubDate>Mon, 08 Aug 2011 13:08:39 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[CMS技巧]]></category>
		<category><![CDATA[WordPress]]></category>
		<category><![CDATA[友情链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1770</guid>
		<description><![CDATA[<p>针对SEO，每个人的操作方式不一样，搜索引擎算法经常在进行的小的更新，对于友情链接给网页权重值的影响，谷歌和百度都明显提到过。</p>
<p>请不要参与旨在提高您的网站排名或 PR值 的链接方案。尤其要避免链接到违规的网站或“恶邻”，因为您自身的排名会受到这些链接的负面影响。</p>
<p>对于友情链接的暂时降权，特别是建立在友情基础上的链接，如果直接撤掉，有点不够厚道，呵呵，如何既不会受到暂时降权的友情链接对网页权重的影响，又能给普通用户正常的推荐（显示）友情链接，这时候我们可以暂时给友情链接加上 nofollow 标签[......]</p><p class='read-more'><a href='http://www.scseoer.com/wordpress-xfn-nofollow.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/wordpress-xfn-nofollow.html/feed</wfw:commentRss>
		<slash:comments>11</slash:comments>
		</item>
		<item>
		<title>站长别局限于PR这一数字</title>
		<link>http://www.scseoer.com/google-pagerank.html</link>
		<comments>http://www.scseoer.com/google-pagerank.html#comments</comments>
		<pubDate>Sun, 07 Aug 2011 18:46:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[杂谈]]></category>
		<category><![CDATA[PR]]></category>
		<category><![CDATA[点击率]]></category>
		<category><![CDATA[谷歌]]></category>
		<category><![CDATA[跳出率]]></category>
		<category><![CDATA[转化率]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1767</guid>
		<description><![CDATA[<p>谷歌在官方博客再次申明：“不要局限于PageRank：逐渐选择其它可操作性指标”，作为SEO，PR更不应该太过于关注结果，谷歌所提到的其他，主要指：转化率、跳出率、点击率 (CTR)，下面是官方说明：</p>
<p>在将近两年时间之后，人们仍然在发表关于这一问题的看法，通常都是这么开头“来自Susan Moskwa的惊人消息：……”。这一事实表明，PageRank在很大程度上已经成为某些网站站长的必需统计工具。即使是我曾经交流过的最没有经验的网站站长，也经常听说PageRank（简称“PR”），并且想知道更多[......]</p><p class='read-more'><a href='http://www.scseoer.com/google-pagerank.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/google-pagerank.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>主题信息的一种搜集与处理模型及其应用</title>
		<link>http://www.scseoer.com/processing-model-application.html</link>
		<comments>http://www.scseoer.com/processing-model-application.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:20:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[实验]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1753</guid>
		<description><![CDATA[<p>人们现在普遍认为，自然科学各学科的研究都有三个支柱：理论、实验和模拟。例如我们有理论物理学，实验物理学，计算物理学。随着计算机应用的不断普及，这样的方法论也在向社会科学拓展，例如在经济学研究领域用计算机来模拟市场行为已经不是新鲜事了。我们这里要指出的是，计算机在社会科学领域的应用不仅仅是模拟，在更多的场合是拓展其实验的深度和广度。我们知道，社会科学的实验主要通过采样调查，统计分析来实现。有了计算机，这样的工作在范围和规模上就可以大大扩展。不仅如此，我们还看到，由于有了计算机，社会科学工作者还有可[......]</p><p class='read-more'><a href='http://www.scseoer.com/processing-model-application.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/processing-model-application.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>主题信息的搜集</title>
		<link>http://www.scseoer.com/topic-information-gather.html</link>
		<comments>http://www.scseoer.com/topic-information-gather.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:06:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[主题]]></category>
		<category><![CDATA[信息]]></category>
		<category><![CDATA[抓取]]></category>
		<category><![CDATA[爬虫]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1749</guid>
		<description><![CDATA[<p>综合性搜索引擎如同一个公共图书馆，它试图满足各类用户的查询需求，所搜集的网页内容广而泛；而由面向主题的搜集系统所建立的主题搜索引擎，则相当于一个专业图书馆，它只搜集与主题内容相关的页面。</p>
<p>目前，Web主题信息搜集的主要方法来源于S. Chakrabarti 于1999年构建的Foused Crawling系统，该系统采用基于样例网页驱动的主题信息的搜集方法，所搜集的主题信息由用户通过选定样例网页来确定，并基于如下的假设：</p>
<p>如果页面u 是一个与主题相关的页面（正例），u到页面v 有一个超链，则页面[......]</p><p class='read-more'><a href='http://www.scseoer.com/topic-information-gather.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/topic-information-gather.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>面向主题的信息搜集与应用</title>
		<link>http://www.scseoer.com/application-topic-information-gather.html</link>
		<comments>http://www.scseoer.com/application-topic-information-gather.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 09:00:24 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[主题]]></category>
		<category><![CDATA[信息]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1747</guid>
		<description><![CDATA[<p>Web信息分布的局部专题化是互联网信息所呈现的特征之一，伴随着面向主题信息获取的需求越来越多，用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自动发现领域内的主要资源,进而研究主题信息的变化及其分布特征。由于主题信息一般只占整个Web很小的一部分，并且具有分散性，因此传统的基于宽度优先或深度优先的搜索策略在Web信息搜集的效率上难以达到期望要求。面向主题的信息搜集系统的主要任务是利用有限的网络带宽、存储容量和较少的时间，抓取尽可能多的主题网页。</p>
<p>本章第一节介绍面向主题的信息搜[......]</p><p class='read-more'><a href='http://www.scseoer.com/application-topic-information-gather.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/application-topic-information-gather.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>天网知名度系统</title>
		<link>http://www.scseoer.com/fame-system.html</link>
		<comments>http://www.scseoer.com/fame-system.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:58:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1740</guid>
		<description><![CDATA[<p>天网知名度系统是在“北大-IBM创新研究院”项目支持下研究开发的一个个性化信息检索系统。该系统是天网搜索引擎技术和先进的中文信息处理技术的结合。它针对特定的（命名）实体及其特性，建立起相关的信息资源模型，通过基于该模型的网页过滤和相关度评价，提供个性化检索和定制信息的主动推送服务。</p>
<p>天网知名度系统可以根据用户注册的实体信息，对搜集到的原始网页进行分析和整理，依用户指定的实体属性对每个网页内容进行相关度及正负面评价，把相关的网页进行汇集、排序，并把满足要求的网页以指定的方式加工、存储，向用户提供W[......]</p><p class='read-more'><a href='http://www.scseoer.com/fame-system.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/fame-system.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于Web挖掘的个性化技术的发展</title>
		<link>http://www.scseoer.com/web-system-development.html</link>
		<comments>http://www.scseoer.com/web-system-development.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:44:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[发展]]></category>
		<category><![CDATA[技术]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1737</guid>
		<description><![CDATA[<p>基于Web挖掘的个性化技术发展有如下趋势：</p>
1、与人工智能技术的结合
<p>个性化系统领域的许多问题最终都可归结到机器学习、知识发现等问题上。用户建模过程通常都应用到代理和多代理技术。因此人工智能技术与Web挖掘技术的结合将会促进Web个性化系统的飞速发展。</p>
2、与交互式多媒体Web技术的结合
<p>随着下一代互联网技术的飞速发展与应用，未来的Web将是多媒体的世界。Web个性化技术和Web多媒体系统结合出现了交互式个性化多媒体Web系统。支持海量多媒体数据流的内容挖掘将成为Web挖掘技术的基本功能之一。由[......]</p><p class='read-more'><a href='http://www.scseoer.com/web-system-development.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-system-development.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>典型个性化Web服务系统的比较</title>
		<link>http://www.scseoer.com/web-service-system.html</link>
		<comments>http://www.scseoer.com/web-service-system.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:42:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[服务]]></category>
		<category><![CDATA[系统]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1734</guid>
		<description><![CDATA[<p>目前已经出现了多个应用Web挖掘技术创建的个性化Web服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘；收集数据的方式有三种：从客户端、代理或服务器方得到原始数据；最后提供的服务有两类：过滤服务和导航服务。表12-1根据这三个方面的不同，比较了基于Web挖掘的典型Web个性化系统。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1735" title="典型Web个性化系统的比较" src="http://www.scseoer.com/wp-content/uploads/2011/08/web-fuwu-bijiao.jpg" alt="典型Web个性化系统的比较" width="585" height="404" /></p>
<p style="text-align: center;">表12-1 典型Web个性化系统的比较</p>
<p>尽管Web挖掘技术已经在Web个性化系统中得到了广泛的应用，但是还存在着以下几个方面的问题。</p>
1、隐私问题
<p>这是一个不可回避的问题。因为要想建立个性化W[......]</p><p class='read-more'><a href='http://www.scseoer.com/web-service-system.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-service-system.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Web挖掘技术</title>
		<link>http://www.scseoer.com/web-mining-technology.html</link>
		<comments>http://www.scseoer.com/web-mining-technology.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:39:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[结构]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1731</guid>
		<description><![CDATA[<p>Web挖掘技术是实现Web个性化服务的核心技术之一。Web挖掘的一般过程可以分成三个阶段：</p>
<ol>
<li>预处理：需要对收集的数据进行必要的预处理，如清除“脏”数据。</li>
<li>模式发现：应用不同的Web挖掘算法发现用户访问模式。</li>
<li>模式分析：从发现的模式集合中选择有意义的模式。</li>
</ol>
<p>Web挖掘通常可以分成三大类，如图12-2所示。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1732" title="Web挖掘的分类" src="http://www.scseoer.com/wp-content/uploads/2011/08/web-wajue-jishu.jpg" alt="Web挖掘的分类" width="527" height="222" /></p>
<p style="text-align: center;">图12-2 Web挖掘的分类</p>
<p>Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时，人们通常应用Web内容挖掘对网页内容进行分析，其中网页的自动分类技术在搜索引擎、数[......]</p><p class='read-more'><a href='http://www.scseoer.com/web-mining-technology.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-mining-technology.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>基于Web挖掘的个性化技术</title>
		<link>http://www.scseoer.com/web-mining.html</link>
		<comments>http://www.scseoer.com/web-mining.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:33:45 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[服务]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1728</guid>
		<description><![CDATA[<p>所谓Web个性化，实质上就是一种以用户需求为中心的Web服务。如图12-1所示。首先，不同Web用户通过各种途径访问Web资源，如图12-1中箭头a所示。其次，系统学习用户的特性，创建用户访问模型，如图12-1中箭头b所示。最后，系统根据得到的知识调整服务内容，以适应不同用户的个性化需求，如图12-1中箭头c所示。因此创建Web个性化服务系统的一般步骤为：</p>
<ol>
<li>收集用户的各种信息，如注册信息，访问历史等；</li>
<li>分析用户数据，创建符合用户特性的访问模式；</li>
<li>结合用户特性，向用户提供符合其特殊需求的个性化服[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/web-mining.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-mining.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>搜索引擎个性化查询服务</title>
		<link>http://www.scseoer.com/search-engine-personalized-service.html</link>
		<comments>http://www.scseoer.com/search-engine-personalized-service.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:31:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1726</guid>
		<description><![CDATA[<p>一般的搜索引擎是基于关键词匹配的方式进行检索的，由于这种方法缺乏对关键词语义的理解，检索结果对用户而言不够理想。主要表现在两个方面：</p>
<ol>
<li>检索结果中无关的网页过多。在所有检索结果中经常是大多数结果与用户的需求无关。尽管某些网页含有检索关键词，实际上同用户的本意无关，但是也被返回给用户了。</li>
<li>没有考虑不同用户的个性差异。</li>
</ol>
<p>目前，所有用户如果输入相同的查询条件，搜索引擎就会返回相同的结果，尽管这些用户的需求各不相同。事实上，不同的用户由于受教育水平、工作环境等因素的不同而具有鲜明的个性，希望搜索引擎能[......]</p><p class='read-more'><a href='http://www.scseoer.com/search-engine-personalized-service.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/search-engine-personalized-service.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>截尾算法</title>
		<link>http://www.scseoer.com/truncation-algorithm.html</link>
		<comments>http://www.scseoer.com/truncation-algorithm.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:27:57 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1722</guid>
		<description><![CDATA[<p>对于一篇待分类文档，应用m元分类算法通常得到多个类别。一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。这个过程使用的方法通常被称为阈值策略。下面简单介绍三个比较常见的阈值策略。</p>
1、位置截尾法（rank-based thresholding，记为RCut）
<p>假设分类系统预先定义的类别数为m。整数k大于1并且小于m。对于每一个待分类的文档D，分类系统都返回一个长为m的候选类列表，取候选类列表的前k项（按类和文档的相似度排序），这篇文档就被认为属于这k个类。这种阈值策略就被称为位[......]</p><p class='read-more'><a href='http://www.scseoer.com/truncation-algorithm.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/truncation-algorithm.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>网页自动分类算法</title>
		<link>http://www.scseoer.com/automatic-webpage-classification-algorithm.html</link>
		<comments>http://www.scseoer.com/automatic-webpage-classification-algorithm.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 08:23:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1708</guid>
		<description><![CDATA[<p>在本章第二节，我们有了一个关于各种文档自动分类算法的概貌。下面对几个比较典型的分类算法进行具体的介绍，并给出了 kNN与NB算法的分类质量与效率的实验结果比较。</p>
一、典型分类算法
<p>1、kNN分类算法</p>
<p>kNN分类算法是一种传统的基于统计的模式识别方法。算法思想很简单：对于一篇待分类文档，系统在训练集中找到k个最相近的邻居，使用这k个邻居的类别为该文档的候选类别。该文档与k个邻居之间的相似度按类别分别求和，减去一个预先得到的截尾阈值，就得到该文档的类别测度。用kNN也表示所选k个最相近文档的集合，公[......]</p><p class='read-more'><a href='http://www.scseoer.com/automatic-webpage-classification-algorithm.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/automatic-webpage-classification-algorithm.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>文本分类特征选取</title>
		<link>http://www.scseoer.com/text-classification-feature-selection.html</link>
		<comments>http://www.scseoer.com/text-classification-feature-selection.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:56:49 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[性能]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1697</guid>
		<description><![CDATA[<p>实现文本自动分类的基本困难之一是特征项空间的维数过高。所谓“特征项”在中文文本中主要指分词处理后得到的词汇，而特征项的维数则对应不同词汇的个数。数量过大的特征项一方面导致分类算法的代价过高，另一方面导致无法准确地提取文档的类别信息，造成分类效果不佳。因此，需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。“特征选取”的任务就是要将信息量小，“不重要”的词汇从特征项空间中删除，从而减少特征项的个数，它是文本自动分类系统中的一个关键步骤。</p>
<p>为便于后面的描述，这里简要给出特征选取的一般过程。给[......]</p><p class='read-more'><a href='http://www.scseoer.com/text-classification-feature-selection.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/text-classification-feature-selection.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页分类器训练样本</title>
		<link>http://www.scseoer.com/webpage-classifier-experiment-set-2.html</link>
		<comments>http://www.scseoer.com/webpage-classifier-experiment-set-2.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:26:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[搜集]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1690</guid>
		<description><![CDATA[<p>为了推进信息检索领域的发展，由美国国家标准和技术研究院（NIST）、信息技术实验室（ITL）检索小组、美国国-防-部高级研究计划署（DARPA）信息技术处、高级研究开发机构（ARDA）等单位共同发起了有全球影响的信息检索会议TREC，自1992年起每年一次；TREC会议实际上是文本信息检索系统的擂台赛，可以说，在TREC上展示的文本分类系统代表了文本分类领域的最新研究成果。一些大学，如CMU、BERKLEY、CORNELL等和一些公司带着自己开发的文本分类系统参加会议，由大会使用相同的训练集和测[......]</p><p class='read-more'><a href='http://www.scseoer.com/webpage-classifier-experiment-set-2.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-classifier-experiment-set-2.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页分类器实验设置</title>
		<link>http://www.scseoer.com/webpage-classifier-experiment-set.html</link>
		<comments>http://www.scseoer.com/webpage-classifier-experiment-set.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:15:18 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类.质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1687</guid>
		<description><![CDATA[<p>为了定量地分析影响分类器性能的关键因素，我们首先实现了一个最基本的中文网页分类器。该分类器的具体设计方案如下：</p>
<ol>
<li>预处理。在预处理阶段，除了进行中文分词处理外，没有进行其它任何预处理；</li>
<li>特征选取。在这里，直接把中文分词得到的所有关键词作为特征项，并由这些特征项构成特征向量，因此没有特征选取处理过程。</li>
<li>分类算法。我们选用kNN（k-Nearest Neighbor）分类算法来实现基本的分类器。在实验中我们取 k = 20，即仅保留相似度最大的20个实例网页。为确定待分类网页的类别，首先需要把具有相[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/webpage-classifier-experiment-set.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-classifier-experiment-set.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>实现中文网页自动分类的一般过程</title>
		<link>http://www.scseoer.com/automatic-webpage-classification-process.html</link>
		<comments>http://www.scseoer.com/automatic-webpage-classification-process.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:08:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[预处理]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1683</guid>
		<description><![CDATA[<p>在应用基于案例的有指导的机器学习方法实现中文网页自动分类的过程中有一个基本的假设：文档的内容与其中所包含的词有着必然的联系，同一类的文档之间总存在多个共同的词，而不同类的文档所包含的词之间差异很大。因此，分类器的训练过程可以看作是在已知文档类别的情况下，统计不同类别内的词的分布，即在预先定义的类别集合C（C={c1, …, ck, …, cm}）与词项集合T（T={t1, …, tk, …, tn}）的幂集之间建立一种加权的映射关系，形成一种向量表示；相应的，分类器的分类过程，可以看作在已知一篇[......]</p><p class='read-more'><a href='http://www.scseoer.com/automatic-webpage-classification-process.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/automatic-webpage-classification-process.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>文档自动分类算法的类型</title>
		<link>http://www.scseoer.com/automatic-document-classification-algorithm-types.html</link>
		<comments>http://www.scseoer.com/automatic-document-classification-algorithm-types.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 07:02:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1679</guid>
		<description><![CDATA[<p>在Web出现之前，人们已研究过许多普通文档分类的方法，形成了各种文档自动分类（Automatic Text Categorization，ATC）技术。随着海量网页信息的涌现，ATC技术的处理对象从普通文档扩展到网页信息，自然地，ATC技术成了实现网页自动分类的基础。所谓文档自动分类就是用计算机程序来确定指定文档和预先定义类别之间的隶属关系。</p>
<p>目前，主要的文档自动分类算法可以分为三类：</p>
1、词匹配法
<p>词匹配法又可以分为简单词匹配法和基于同义词的词匹配法两种。简单词匹配法是最简单、最直观的文档分类[......]</p><p class='read-more'><a href='http://www.scseoer.com/automatic-document-classification-algorithm-types.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/automatic-document-classification-algorithm-types.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>中文网页自动分类技术</title>
		<link>http://www.scseoer.com/chinese-webpage-classification-technology.html</link>
		<comments>http://www.scseoer.com/chinese-webpage-classification-technology.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:58:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分类]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1677</guid>
		<description><![CDATA[<p>网页自动分类技术已经成为Web领域的一个研究热点。本章主要讨论如何应用有指导的机器学习方法实现大规模中文网页的自动分类，以及如何应用中文网页自动分类方法实现搜索引擎目录导航服务。</p>
<p>为了能够有效地组织和分析海量的Web信息，人们希望能够按照其内容实现对网页的自动分类。目前，网页自动分类技术在数字图书馆、主题搜索、个性化信息检索、搜索引擎的目录导航服务、信息过滤、主动信息推送服务等领域得到了广泛地应用。</p>
<p>在信息检索领域，评价一个系统的性能，通常有效果和效率两个方面的考虑。与此对应，评价一个分类器性能[......]</p><p class='read-more'><a href='http://www.scseoer.com/chinese-webpage-classification-technology.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/chinese-webpage-classification-technology.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>面向主题和个性化的Web信息服务</title>
		<link>http://www.scseoer.com/web-information-service.html</link>
		<comments>http://www.scseoer.com/web-information-service.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:55:35 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1675</guid>
		<description><![CDATA[<p>Web信息服务就是根据用户的信息需求,为其提供相应的Web信息；而基于主题和个性化的信息服务就是指在特定的主题范围内, 能够根据用户个人独特的信息需求, 从互联网上搜索出有关的信息,并将它们整合在一起, 以便有针对性地满足各种不同用户的信息需求。目前，针对某一领域的小型主题搜索引擎、个性化智能搜索引擎的研究已成为下一代搜索引擎的两个研究热点。</p>
<p>本篇介绍我们在这方面所做的一些研究性工作，主要包括：</p>
<ol>
<li>中文网页分类技术：现已成为中文Web信息处理领域的基础性工作，例如将网页进行自动分类，可以为搜索引[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/web-information-service.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-information-service.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>搜索引擎检索质量评估实验的建立与分析</title>
		<link>http://www.scseoer.com/assessment-experimental-establishment-analysis.html</link>
		<comments>http://www.scseoer.com/assessment-experimental-establishment-analysis.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:53:08 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索结果]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1672</guid>
		<description><![CDATA[<p>搜索引擎检索质量评估的目标是对不同搜索引擎系统的检索结果评估其相对优劣次序。对单独一个系统的评估，得到的评估指标的得分一般没有实际意义。搜索引擎的搜集和检索两大部分的性能对最终的检索质量都有影响。[Hawking, et al.,2001]指出以P@N为评估指标时，指定结果个数N，检索精度随着文档集合大小增长而增长。并且评估对象搜集的网页范围、数量都不相同，这种差异对评估有一定的影响。</p>
<p>可以考虑在实验中采用一种归一化的方法，把查询结果限定在一个固定的集合内，用来减小不同评估对象的搜集系统差异对检[......]</p><p class='read-more'><a href='http://www.scseoer.com/assessment-experimental-establishment-analysis.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/assessment-experimental-establishment-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>查询类别分析与查询集的构建</title>
		<link>http://www.scseoer.com/query-category-analysis-query-set.html</link>
		<comments>http://www.scseoer.com/query-category-analysis-query-set.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:48:16 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[搜索]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1668</guid>
		<description><![CDATA[<p>用户信息需求千差万别，以不同查询表达，这种类型差异对于检索系统十分重要，因为不同类型的需求可以有不同的检索方法更好的完成，对系统评估也同样如此，不同类型的用户信息需求和查询需要采用不同的评估方法。</p>
<p>对用户查询有不同的分类方法。文献[eTesting,2000]从查询语法特征上划分为5类：</p>
<ol>
<li>自然语言查询；</li>
<li>单个查询词的简单查询；</li>
<li>多个查询词的简单查询；</li>
<li>包含操作符的复杂查询和主页查询。</li>
</ol>
<p>文献[Travis and Broder,2001]把用户信息需求分为三类：信息型，导航型和事务型。</p>
<p>信息型[......]</p><p class='read-more'><a href='http://www.scseoer.com/query-category-analysis-query-set.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/query-category-analysis-query-set.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>搜索引擎系统质量评估</title>
		<link>http://www.scseoer.com/search-engine-system-quality-evaluation.html</link>
		<comments>http://www.scseoer.com/search-engine-system-quality-evaluation.html#comments</comments>
		<pubDate>Fri, 05 Aug 2011 06:43:10 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[质量]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1665</guid>
		<description><![CDATA[<p>公开有效的搜索引擎质量评估对指导用户选择搜索服务，对搜索引擎服务提供者与研究人员不断尝试新技术，提高服务质量十分重要。商业搜索引擎内部通常会有质量评估，一般不会公开。</p>
<p>这一方向的工作与研究主要由信息检索领域的研究人员推动。</p>
<p>信息检索可以看作这样的过程和方法，通过它，一个需要信息的用户可以把他的信息需求转换成为对数据集中若干文档的引用，从而找到有用的信息。评估从这个研究方向创立开始就一直为人们关注。</p>
<p>根据评估对象的不同，可以分为6个级别：</p>
<ol>
<li>工程级关注系统的效率；</li>
<li>输入级关注输入数据的覆盖率；</li>
<li>处[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/search-engine-system-quality-evaluation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/search-engine-system-quality-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页权重最终计算</title>
		<link>http://www.scseoer.com/webpage-weight-calculation.html</link>
		<comments>http://www.scseoer.com/webpage-weight-calculation.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:42:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页权重]]></category>
		<category><![CDATA[超链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1651</guid>
		<description><![CDATA[<p>以上已经给出了如何得到一个检索的相关网页集合，下面的工作是计算每个网页和查询q的相关度。相关度运算依赖三个方面，它们分别是：基本权值、链接权值和用户评价权值。首先计算每一个结果网页p的基本权值WB(q,p)。</p>
<p>按照第一节的论述，每一个查询q可以被分解为m个特征项｛t1, t2, … tm｝的逻辑运算。因此，对于每一个结果网页p，都可以获得每一个特征项在该网页中的权值WB(ti, p)。我们按照如下方法定义权值的逻辑运算：</p>
<p><img class="alignnone size-full wp-image-1652" title="定义权值的逻辑运算" src="http://www.scseoer.com/wp-content/uploads/2011/08/luoji-jisuan.jpg" alt="定义权值的逻辑运算" width="297" height="70" /></p>
<p><img class="alignnone size-full wp-image-1653" title="定义权值的逻辑运算" src="http://www.scseoer.com/wp-content/uploads/2011/08/luoji-jisuan-1.jpg" alt="定义权值的逻辑运算" width="300" height="74" /></p>
<p>任何一个用户的检索都可以表示为特征项的与（∩）和或（∪）的运算表达式，[......]</p><p class='read-more'><a href='http://www.scseoer.com/webpage-weight-calculation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-weight-calculation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>收集用户反馈信息</title>
		<link>http://www.scseoer.com/user-feedback-information.html</link>
		<comments>http://www.scseoer.com/user-feedback-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:36:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[用户评价]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1639</guid>
		<description><![CDATA[<p>在搜索引擎中，当用户给出查询并得到一个返回结果列表之后，绝大多数的情况下他们都是扫描一下前面几个条目的摘要，感觉有他需要的内容，则点击对应的链接，去阅读网页全文。对来自于不同用户的同一个查询词来说，若某个链接虽然在返回结果表上出现的位置不太靠前，但被选取点击的次数比较多，于是系统应该感到该链接是比较受欢迎的，其位置应该往前调。举例来说，如果80%输入查询词“北京大学”的用户都点击了输出结果的第10项，则系统应该认为第10项对于查询“北京大学”来说才是最相关的结果，应该将它排在前面。</p>
<p>具体实现起来[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-feedback-information.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-feedback-information.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>利用链接的结构</title>
		<link>http://www.scseoer.com/link-structure.html</link>
		<comments>http://www.scseoer.com/link-structure.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:23:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[超链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1633</guid>
		<description><![CDATA[<p>网页之间的超链接是Web的基本特点，这也是从应用上区别现在的Web和以前的Internet最突出的特征。如果说TCP/IP协议组将上百万计算机无缝连接起来了，则HTTP/HTML协议组将上百亿信息（网页）无缝连接起来了。海量网页之间的相互链接形成了一个巨大的有向图，这个图的很多结构性特征既有趣，也有重要的意义。特别地，我们关心一个网页的入度。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1634" title="网页的互联结构示意" src="http://www.scseoer.com/wp-content/uploads/2011/08/wangye-hulian-jiegou.jpg" alt="网页的互联结构示意" width="359" height="315" /></p>
<p style="text-align: center;">图10-4 网页的互联结构示意</p>
<p>在这部分，我们主要考虑WWW中超链的互链关系对一个网页权值的影响。Web有两个基本的构成因素：网页和超链。如果我们将网页[......]</p><p class='read-more'><a href='http://www.scseoer.com/link-structure.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/link-structure.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>形成网页中词项的基本权重</title>
		<link>http://www.scseoer.com/word-basic-weight.html</link>
		<comments>http://www.scseoer.com/word-basic-weight.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:14:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[标签]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页权重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1627</guid>
		<description><![CDATA[<p>前面提到了向量空间模型，但根据我们的讨论，并不能够将它完全照搬到搜索引擎系统中来。网页信息和正文文本最重要的差别就是在网页中含有大量的HTML标签（tag）。因此，我们在天网中提出了一个改进的TF*IDF算法用于检索和相关度评价算法。相对传统的IR而言，增加了对HTML标签和网页的可索引文本长度。可索引文本长度表示用户通过浏览器窗口看到的一个网页的文本内容长度。</p>
<p>考虑被HTML标签包围的一段文本内容，到底这些标签应该如何影响这段内容呢？天网将所有的标签分为两类：一类是影响文本权值的标签，如&#038;lt[......]</p><p class='read-more'><a href='http://www.scseoer.com/word-basic-weight.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/word-basic-weight.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>相关排序的一种实现方案</title>
		<link>http://www.scseoer.com/relevance-ranking-scheme.html</link>
		<comments>http://www.scseoer.com/relevance-ranking-scheme.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 09:03:54 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1625</guid>
		<description><![CDATA[<p>一个网页是否重要，我们可以从其它网页上找出相应的线索。如果一个网页十分重要，那么会有大量的链接指向这个网页。因此，需要对一个还没有搜集的URL 地址进行被链接次数的统计，以确定该URL 获得的其它网页的评价，我们同时赋予其相应的权值Wl。另外，可以根据我们日常在网上的访问，来获得一些有价值的网站，加入到配置文件中。当一个网页属于这些重要网站时，我们就赋予它另外一个权值Ws。还有就是网页的编码类型。作为一个主要为华人服务的搜索引擎，我们主要的关注点在中文信息，所以我们应该优先搜集那些中文网页。即便[......]</p><p class='read-more'><a href='http://www.scseoer.com/relevance-ranking-scheme.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/relevance-ranking-scheme.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Web查询模式下的新信息</title>
		<link>http://www.scseoer.com/web-query-model-new-information.html</link>
		<comments>http://www.scseoer.com/web-query-model-new-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:58:59 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[数据特征]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1618</guid>
		<description><![CDATA[<p>上述链接分析可以有效的计算网页的重要程度，但是带有明显的偏向，即不重视新出现的网页。新出现的网页，尽管可能很重要，但由于时间短，被链接的次数显然不可能很高，PageRank的值就不会高。因此需要来补偿这个问题，人们注意到，除网页本身特性外，搜索引擎的应用环境和传统信息查询也有些不同，这可以从两个方面考虑。</p>
1、用户行为
<p>和传统IR的用户群相比，虽然搜索引擎的用户群的经验少，但他们的数量却十分巨大。大型商业搜索引擎，如Google，AltaVista，百度等，每天都有上1000万次的用户检索。通过[......]</p><p class='read-more'><a href='http://www.scseoer.com/web-query-model-new-information.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-query-model-new-information.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>链接分析</title>
		<link>http://www.scseoer.com/link-analysis.html</link>
		<comments>http://www.scseoer.com/link-analysis.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:30:13 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[链接]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1613</guid>
		<description><![CDATA[<p>从开发利用的角度看，网页和普通文本的不同主要反映在两个方面：HTML标签和网页之间的超链接。</p>
<ol>
<li>我们知道，HTML设计有丰富的标签，是网页作者用于将网页的不同部分以不同的形式呈现给用户的手段，包括文字的布局，字体、字号的变化，等等，主要追求的是视觉效果。因此，标签能给我们提示其中文字的重要程度。例如，常识告诉我们，在同一篇文字中，比较大的字体往往是作者比较强调的内容；而在一版（以区别“一篇”，如同报纸）内容分块、且有一定布局的文字上，放在前面和中间的应该是作者比较强调的，等等。许多著名搜索引擎在[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/link-analysis.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/link-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>传统IR的相关排序技术</title>
		<link>http://www.scseoer.com/traditional-ir-related-sorting-technique.html</link>
		<comments>http://www.scseoer.com/traditional-ir-related-sorting-technique.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:19:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[向量空间]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[词频]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1606</guid>
		<description><![CDATA[<p>给定某个文档集合D，大小为M；设两篇文档d1，d2 ∈ D，一个查询q。用什么样的标准来讲“d1与d2相比，前者和q更相关”？这方面最经典、最有影响的工作是Gerald SAlton等在30多年前提出的“向量空间模型”（Vector Space Model，VSM）。该模型的基础是如下假设：文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画。</p>
<p>这样，文档d和查询q就都被简化成词汇的集合（多重集）。不失一般性，令</p>

<p style="text-align: center;">Σ={t1,t2,&#8230;&#8230;tN}</p>

<p>为一个词典，ti为词[......]</p><p class='read-more'><a href='http://www.scseoer.com/traditional-ir-related-sorting-technique.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/traditional-ir-related-sorting-technique.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>相关排序与系统质量评估</title>
		<link>http://www.scseoer.com/relevance-ranking-system-quality-evaluation.html</link>
		<comments>http://www.scseoer.com/relevance-ranking-system-quality-evaluation.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 08:01:24 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[排序]]></category>
		<category><![CDATA[相关性]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1604</guid>
		<description><![CDATA[<p>传统上，人们将信息检索系统返回结果的排序称为“相关排序”（relevance ranking），隐含其中各条目的顺序反映结果和查询的相关程度。在搜索引擎的情形，人们也这么讲，但内涵其实是有了差别。</p>
<p>一方面，搜索引擎维护的内容十分繁杂且不规范，不像传统的图书、文献等有很好的分类体系管理。</p>
<p>另一方面，搜索引擎面对的用户背景广阔，层次多样，不像传统的图书馆所面对的用户通常有相对比较整齐的用户群。</p>
<p>因此，搜索引擎要给出的不是一个狭义的相关序，而是某种反映多种因素的综合统计优先序。检索质量评估的目标是对不[......]</p><p class='read-more'><a href='http://www.scseoer.com/relevance-ranking-system-quality-evaluation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/relevance-ranking-system-quality-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>海量Web信息的特征分析</title>
		<link>http://www.scseoer.com/web-information-feature-analysis.html</link>
		<comments>http://www.scseoer.com/web-information-feature-analysis.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 07:59:20 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页]]></category>
		<category><![CDATA[访问次数]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1593</guid>
		<description><![CDATA[<p>我们将天网 2000年4月上旬搜集的100万网页按照被用户访问的次数按降序排序，设该URL序列为U1,U2,…,U1000000，其对应的用户点击次数依次为V1,V2,…,V1000000，它们对应的网页入度为H1,H2,…,H1000000，网页镜像数为C1,C2,…,C1000000，URL目录深度是D1,D2,…,D1000000，另外，我们还增加了一个参照序列，它对每一个URL赋予同等重要度，即S1,S2,…,S1000000，其中Si=1。图9-14，图9-15，图9-16，图9-17[......]</p><p class='read-more'><a href='http://www.scseoer.com/web-information-feature-analysis.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/web-information-feature-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户行为与Web信息的分布特征</title>
		<link>http://www.scseoer.com/user-behavior-web-information.html</link>
		<comments>http://www.scseoer.com/user-behavior-web-information.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 07:31:55 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户行为]]></category>
		<category><![CDATA[网页信息]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1591</guid>
		<description><![CDATA[<p>在2000年4月上旬，天网搜集了1,000,000 个国内网页，这些网页立刻作为新的数据对外提供服务。在随后的14天时间里，有141,779篇网页通过天网的引导被用户访问，总访问次数为400,641。哪些网页被访问，访问了多少次都通过日志文件被记录了下来。我们将基于这些信息来考察Web信息（主要是入度、镜像度和目录深度）的分布特征及其与网页重要度之间的关系。</p>
<p>这里对网页重要度的度量规则定义为：用户访问越多的网页越重要。需要指出的是，用户点击URL的行为是受天网系统的输出页面中结果排序的影响的，如[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-behavior-web-information.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-behavior-web-information.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>缓存替换策略研究</title>
		<link>http://www.scseoer.com/cache-replacement-policy.html</link>
		<comments>http://www.scseoer.com/cache-replacement-policy.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 06:32:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1586</guid>
		<description><![CDATA[<p>前面的统计分析表明了查询缓存和热点击缓存的可行性，下面以天网 1999年4月15日到1999年6月10日的查询日志作为输入来对几种缓存替换策略进行比较，选择一种最适合于搜索引擎系统的策略。我们评测的替换策略包括FIFO（First In First Out）、LRU（Least Recently Used）和LFU（Least Frequently Used）三种，其中LFU是带衰减的LFU，即每次发生替换时用某个衰减因子去衰减原来的查询次数并累加新的查询次数。</p>
<p>对于FIFO和LRU这两种替换策[......]</p><p class='read-more'><a href='http://www.scseoer.com/cache-replacement-policy.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/cache-replacement-policy.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于用户行为的启示</title>
		<link>http://www.scseoer.com/user-behavior-inspiration.html</link>
		<comments>http://www.scseoer.com/user-behavior-inspiration.html#comments</comments>
		<pubDate>Thu, 04 Aug 2011 06:27:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[查询]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1582</guid>
		<description><![CDATA[<p>用户查询分布的统计分析表明用户的查询词是非常集中的，这表明在查询中使用缓存的可行性：用户经常查询的词其实是很少的，把这些查询次数较高的词的查询结果放在缓存中，使用容量很小的缓存就能命中大部分的用户查询，这样就可以用较小的空间取得较大的缓存命中率。</p>
<p>假设在缓存中命中一个用户查询需要的延迟是Tm，在磁盘文件中查找一个用户查询需要的时间是Td，缓存命中率是p，这样在引入缓存后，用户查询的平均响应时间变为原来（即未使用缓存）的η倍：</p>
<p><img class="alignnone size-full wp-image-1583" title="用户查询的平均响应时间" src="http://www.scseoer.com/wp-content/uploads/2011/08/xiangying-shijian.jpg" alt="用户查询的平均响应时间" width="526" height="69" /></p>
<p>在天网系统中，一次访问硬盘的时间大约是一次访问内存的时间的几十倍，这[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-behavior-inspiration.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-behavior-inspiration.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>查询过程的自相似性</title>
		<link>http://www.scseoer.com/query-process-self-similarity.html</link>
		<comments>http://www.scseoer.com/query-process-self-similarity.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 10:06:09 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1561</guid>
		<description><![CDATA[<p>我们在统计每相邻N项查询项之间的频率的差平方和的时候，发现差平方和在长时间内一直比较稳定，似乎具有自相似性的特征，于是可以对查询日志做进一步分析，以验证用户的查询是否具有自相似性。</p>
<p>自相似性直观上说就是一组序列在很长的时间范围内表现出结构上的相似性。自相似模型的主要特点是长期依赖性，而不象泊松分布那样只能体现出来短期的依赖性。下面我们首先引入自相似性随机过程的定义。</p>
<p>定义9-1设X是一个广义平稳随机过程，其均值为μ，方差为δ2，自相关函数为ρ(τ)，如果ρ(τ)具有以下形式：</p>
<p><img class="alignnone size-full wp-image-1562" title="自相关函数" src="http://www.scseoer.com/wp-content/uploads/2011/08/xianguan.jpg" alt="自相关函数" width="464" height="27" /></p>
<p>其中L(τ)一个[......]</p><p class='read-more'><a href='http://www.scseoer.com/query-process-self-similarity.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/query-process-self-similarity.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>考虑与不考虑查询项时点击URL分布的对比分析</title>
		<link>http://www.scseoer.com/clicks-url.html</link>
		<comments>http://www.scseoer.com/clicks-url.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:50:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1555</guid>
		<description><![CDATA[<p>对于点击URL的分布情况还有另外一种统计方法，即针对用户查询词的统计，因为用户的每一次点击都是在某个查询的结果中进行的，这种统计的方法就是把用户的点击和相应的查询联系起来。其具体方法是：将点击的URL按其对应的查询词分类，统计每个查询词下各个URL点击的次数。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1556" title="考虑查询项与否的URL分布情况" src="http://www.scseoer.com/wp-content/uploads/2011/08/kaolv-url-chaxun-dianji.jpg" alt="考虑查询项与否的URL分布情况" width="443" height="277" /></p>
<p style="text-align: center;">图9-7 考虑查询项与否的URL分布情况</p>
<p>这样我们就得到了两种统计方法的结果，并且我们对这两种方法进行了比较。进行比较的方法是：在针对查询项的统计结果中，每个查询词Qi下每个被点击的URL页面Uj都有一个点击次数Wij，在不考虑查询的U[......]</p><p class='read-more'><a href='http://www.scseoer.com/clicks-url.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/clicks-url.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户点击URL的分布情况</title>
		<link>http://www.scseoer.com/clicks-url-distribution.html</link>
		<comments>http://www.scseoer.com/clicks-url-distribution.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:44:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[点击]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1552</guid>
		<description><![CDATA[<p>我们用2000年4月份天网的查询日志来统计用户点击URL的分布情况。这里我们假设用户点击的URL序列为S1={u1 , u2, … , un}，其中这n个URL中共有m个是不同的，按其被点击次数进行降序排序得到序列S2={U1, U2, … , Um}，而S3={C1, C2,…, Cm}是与S2对应的被点击次数序列。按公式（9-1）的计算方法，我们可以得到：统计序列S2中前某个百分比的URL其对应点击次数占总点击次数的比率Y，其统计结果如图9-6所示，其中横坐标表示所选URL的数目占用户点击的[......]</p><p class='read-more'><a href='http://www.scseoer.com/clicks-url-distribution.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/clicks-url-distribution.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户在输出结果中的翻页情况统计</title>
		<link>http://www.scseoer.com/page-statistics.html</link>
		<comments>http://www.scseoer.com/page-statistics.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:40:46 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1549</guid>
		<description><![CDATA[<p>我们用2000年4月份天网系统的查询日志来统计用户点击URL的翻页情况，其中该日志记录了近50万的用户点击情况，包括用户点击的URL及该URL所在输出结果中的页号。具体做法是：统计相同页号的页面点击次数占总点击次数的百分比。假设天网系统中能够提供n个显示页面（在当时的实际系统中n=2000，每个页面包含10个网页信息），用{P1 , … , Pn}来表示，它们对应的点击次数分别为C1 , … , Cn。对第i个页面，我们根据公式9-5计算其点击次数占总点击次数的百分比Yi。得到的结果如表9-1和[......]</p><p class='read-more'><a href='http://www.scseoer.com/page-statistics.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/page-statistics.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>相邻N项查询词的偏差分析</title>
		<link>http://www.scseoer.com/deviation-analysis.html</link>
		<comments>http://www.scseoer.com/deviation-analysis.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:35:26 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1543</guid>
		<description><![CDATA[<p>根据天网1999年4月15日到1999年6月10日的查询日志，对其中相邻N项用户查询词的频率的差平方和进行了统计。具体做法如下：将用户查询每1000项分为一组，对于相邻的两组A和B，假设A组中出现的不同的用户查询是(ab1，ab2，……，abk，a1，a2，……，an)，其中abi是A组和B组中所共有的，ai是A中出现但B中没出现的查询。而B组中出现的不同的用户查询是(ab1，ab2，……，abk，b1，……，bm)，其中bi是B组中出现而A组中没出现的。</p>
<p>A和B中的这些不同的查询项构成一个向量[......]</p><p class='read-more'><a href='http://www.scseoer.com/deviation-analysis.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/deviation-analysis.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>雷同查询词的衰减统计</title>
		<link>http://www.scseoer.com/same-query-word-attenuation-statistics.html</link>
		<comments>http://www.scseoer.com/same-query-word-attenuation-statistics.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:05:17 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[用户查询]]></category>
		<category><![CDATA[统计]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1540</guid>
		<description><![CDATA[<p>基于天网1999年4月15日到1999年6月10日期间的日志记录，对用户雷同查询项的衰减情况进行统计分析，这里，我们把序列S1进行了分组，每相邻1000项分为一组，并假设第i组的查询序列为Ai={qi1 , … , qi1000}，我们用T1表示A1中不同的查询项组成的集合，然后计算后面各组的查询项中有多少个查询项出现在T1中，即对于Ai，我们计算Yi的值：</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1541" title="雷同查询词的衰减" src="http://www.scseoer.com/wp-content/uploads/2011/08/leitongci-shuaijian.jpg" alt="雷同查询词的衰减" width="489" height="374" /></p>
<p style="text-align: center;">图9-3 雷同查询词的衰减</p>
<p>当取不同的i值时就可以得到不同的Yi值，其结果反映在图9-3中，其中横坐标表示组号，即第几组1000项，纵坐[......]</p><p class='read-more'><a href='http://www.scseoer.com/same-query-word-attenuation-statistics.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/same-query-word-attenuation-statistics.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户查询词的分布情况</title>
		<link>http://www.scseoer.com/user-query-distribution.html</link>
		<comments>http://www.scseoer.com/user-query-distribution.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 09:01:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[函数]]></category>
		<category><![CDATA[用户查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1535</guid>
		<description><![CDATA[<p>我们以天网1999年4月15日到1999年6月10日期间的日志记录作为分析对象，首先统计了用户查询词的分布情况。这里我们采用本章开头介绍的那种统计分析思路，假设用户的查询词序列为S1={q1 , q2 , … , qn}，其中这n项查询词中共有m个不同的查询词，按其查询次数进行降序排列得到序列S2={Q1 , Q2 , … , Qm}，而S3={C1 , C2 ,…, Cm}是与S2对应的查询次数序列。我们希望考察序列S2中前某个百分比的查询词其对应查询次数占总查询次数的比率Y，即计算公式（9-[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-query-distribution.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-query-distribution.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用户查询与点击日志</title>
		<link>http://www.scseoer.com/user-query-click-log.html</link>
		<comments>http://www.scseoer.com/user-query-click-log.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:52:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志记录]]></category>
		<category><![CDATA[用户查询]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1531</guid>
		<description><![CDATA[<p>一般的搜索引擎系统主要维护了两类信息，一类是和搜集到的Web页面相关的信息，另一类是在服务过程中收集到的用户行为信息（记录在所谓的日志文件中）。</p>
<p>前者指的是机器人从网上抓取的网页经过分析器分析处理后得到的信息，主要包括网页所包含的关键词、摘要信息、元信息（如网页作者、长度、修改时间等）以及URL超链信息，这类信息通常是作为输出信息给用户看的。而后一类信息主要包括用户输入的查询项，查询时间，用户的IP地址，用户在输出页面中所点击感兴趣页面的URL。这两类信息的数据量都很大，在天网系统中它们都已超过[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-query-click-log.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-query-click-log.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>用户行为的特征及缓存的应用</title>
		<link>http://www.scseoer.com/user-behavior-characteristics-application-cache.html</link>
		<comments>http://www.scseoer.com/user-behavior-characteristics-application-cache.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:46:15 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[用户行为]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1522</guid>
		<description><![CDATA[<p>通过对大量用户行为的统计分析，我们发现搜索引擎用户输入的查询词语和查询过程中所点击到的网页URL均表现出明显的时间局部性；而且用户查询的分布符合幂函数特征并具有良好的自相似性。这些规律可能有多方面的价值，其中之一就是用来指导查询缓存的设计。而搜索引擎所访问数据的特殊性使得我们在缓存设计中有必要重新考察相关的细节。</p>
<p>因此，本章除通过数据具体展示上述规律外，作为应用，还比较了查询缓存设计中FIFO，LRU及带衰减的LFU等3种缓存替换策略。最后，本章还讨论了基于用户行为考察海量网页信息的分布特征，并[......]</p><p class='read-more'><a href='http://www.scseoer.com/user-behavior-characteristics-application-cache.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/user-behavior-characteristics-application-cache.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>高性能检索子系统小结</title>
		<link>http://www.scseoer.com/retrieval-system.html</link>
		<comments>http://www.scseoer.com/retrieval-system.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:35:19 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[检索]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1520</guid>
		<description><![CDATA[<p>第一节通过分析天网检索子系统的设计与实现，概述了检索系统所要关心的若干基本技术。检索系统的设计目标围绕检索效果和检索效率两个方面展开。系统通过一个集成框架把多种技术融合到一起，包括中文文本自动分类技术、中文信息提取技术等，以求能不断提高检索质量。天网检索分布式系统构架有效解决了系统可扩展性问题，它是高效检索系统实现的物理基础。而检索系统在索引创建和检索上的相关实现技术，则是高效检索系统实现的保证。</p>
<p>第二节着重从 I/O 数据量的角度分析了影响倒排文件查询效率的各种因素，以及提高系统效率的一些技术[......]</p><p class='read-more'><a href='http://www.scseoer.com/retrieval-system.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/retrieval-system.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>缓存策略的选择</title>
		<link>http://www.scseoer.com/cache-strategy-choice.html</link>
		<comments>http://www.scseoer.com/cache-strategy-choice.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:29:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[性能]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1518</guid>
		<description><![CDATA[<p>我们注意到，现代操作系统的文件系统通常都提供I/O数据的缓存功能，通常以页为单位。也就是说，如果在应用层不安排缓存，应用中发生的I/O操作物理上也都可能在内存发生。文献[彭波,2004b]通过四组缓存仿真实验，验证了倒排文件缓存经过优化设计，可以比文件系统缓存性能更好。</p>
<p>具体的方法可以通过缓存变长的IO序列对象，选择性能更好的GD-SIZE1替换算法，从优化磁盘系统I/O次数的角度来提高系统性能；也可以通过选取大的页面作为访问倒排文件的单位，从优化磁盘系统带宽利用率的角度提高系统性能。</p>
<p>最后按页[......]</p><p class='read-more'><a href='http://www.scseoer.com/cache-strategy-choice.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/cache-strategy-choice.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>负载特性</title>
		<link>http://www.scseoer.com/load-characteristic.html</link>
		<comments>http://www.scseoer.com/load-characteristic.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:28:27 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[序列]]></category>
		<category><![CDATA[缓存]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1514</guid>
		<description><![CDATA[<p>这一部分分析负载数据的性质，讨论它们对倒排文件缓存和缓存替换算法的影响。</p>
1、I/O序列对象大小
<p>I/O序列中的对象大小不同，其中由位置数据访问产生的部分是固定长度(32KB)，而对文档数据访问产生的对象大小分布很不均匀，以4KB为单位对其分布统计如图8-8所示。其中值为7.59KB，79%的请求对象长度在64KB以下，同时也有少数较大的数据访问。有效的缓存替换算法需要考虑对象的大小。对大量的小数据对象优先缓存，可以提高缓存的命中率，而对大对象优先缓存可以提高缓存的字节命中率。因为I/O序列反映[......]</p><p class='read-more'><a href='http://www.scseoer.com/load-characteristic.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/load-characteristic.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件缓存</title>
		<link>http://www.scseoer.com/inverted-file-cache.html</link>
		<comments>http://www.scseoer.com/inverted-file-cache.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:24:06 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[结构]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1510</guid>
		<description><![CDATA[体系结构
<p>天网检索系统采用分布式体系结构，按文档划分的方式组织数据到多个索引服务节点，它们独立的并行执行用户查询，把各自检索结果提交给查询服务器汇总返回给用户。各级缓存的位置如图8-7。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1511" title="搜索引擎检索系统缓存结构" src="http://www.scseoer.com/wp-content/uploads/2011/08/se-huancun-jiegou.jpg" alt="搜索引擎检索系统缓存结构" width="597" height="163" /></p>
<p style="text-align: center;">图8-7 搜索引擎检索系统缓存结构</p>
<p>倒排文件缓存位于索引服务节点上，对查询执行器在执行用户查询过程中访问的倒排文件数据进行缓存。大量统计研究表明用户查询词序列具有良好的局部性，可以预期查询执行器发出的读取这些查询词倒排数据序列也具有同样的性质，这是人们研究倒排文件缓存的基本出发点。</p>
<p>在搜索引擎应用环境下，用户[......]</p><p class='read-more'><a href='http://www.scseoer.com/inverted-file-cache.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/inverted-file-cache.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件缓存机制</title>
		<link>http://www.scseoer.com/inverted-file-cache-mechanism.html</link>
		<comments>http://www.scseoer.com/inverted-file-cache-mechanism.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:19:10 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排文件]]></category>
		<category><![CDATA[缓存机制]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1508</guid>
		<description><![CDATA[<p>缓存技术是提高系统性能和可扩展性的一种重要手段，在计算机各个应用领域都有广泛的应用。如何有效的在搜索引擎检索服务系统中使用缓存技术也是近年来学术界广泛关注的问题。</p>
<p>缓存技术的有效性建立在被缓存对象访问序列存在的局部性特征上。与操作系统内存管理、数据库系统和Web代理缓存这些领域大量的研究相比，搜索引擎检索系统上的缓存研究相对较少。它们之间有共性，但由于被缓存对象特征和对象访问模式的差异，又各自具有自己的特点。搜索引擎检索系统中通常被研究的缓存对象可分为三种，即查询结果、布尔操作的中间结果、以及倒[......]</p><p class='read-more'><a href='http://www.scseoer.com/inverted-file-cache-mechanism.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/inverted-file-cache-mechanism.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引实现</title>
		<link>http://www.scseoer.com/hybrid-index-realization.html</link>
		<comments>http://www.scseoer.com/hybrid-index-realization.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:16:19 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[日志]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1504</guid>
		<description><![CDATA[<p>混合索引的实现主要包括未登录词识别、扩展词典组织和分词两个部分。除了两趟分词和扩展词对基本词条的覆盖处理外，索引系统的创建过程和检索过程同一般的索引实现没有区别。</p>
1、未登录词的识别
<p>目前，从语料库中自动识别或者学习词典未登录新词，特别是面向领域的专业词汇以及人名、地名、机构名等专有名词等方面，已经有了大量的研究工作和实用的技术。对文本数据常规的未登录词识别算法一般包括如下步骤：</p>
<ol>
<li>提取n元组：使用基本词典，将文本进行部分分词，从部分分词结果中提取n元组，即包含n个相邻基本词条的字串。一般n元组[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/hybrid-index-realization.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/hybrid-index-realization.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引原理</title>
		<link>http://www.scseoer.com/hybrid-index.html</link>
		<comments>http://www.scseoer.com/hybrid-index.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:09:34 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[原理]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1501</guid>
		<description><![CDATA[<p>混合索引是在建立倒排索引过程中的一种索引词选择方法与技术。索引词的选择是检索系统实现的一个重要环节。现代搜索引擎普遍采用全文索引技术，把网页文档中提取出来的所有词语都选择参与索引。</p>
<p>在理想情况下，索引词应该是表达文档内容的语义单位，对应着语言学里的词汇词的概念，它是专门表示含义，而其实际意义无法由组合成分相加得到的最小语言单位。但对于自动文档索引过程，识别文档中的词汇词，例如短语十分困难，因此通常选取语法意义上的最小语言单位为索引词。对英文文档，这一过程相对容易。对中文网页文档的索引过程，词间没[......]</p><p class='read-more'><a href='http://www.scseoer.com/hybrid-index.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/hybrid-index.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>混合索引技术</title>
		<link>http://www.scseoer.com/hybrid-indexing-technique.html</link>
		<comments>http://www.scseoer.com/hybrid-indexing-technique.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:06:01 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[技术]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1499</guid>
		<description><![CDATA[<p>大量的统计研究表明，搜索引擎用户输入查询长度平均较短，并且很少使用系统提供的查询操作符。这种情况下，检索结果排序考虑用户输入的查询词之间的短语关系或者位置邻近关系，对提高检索结果的效果十分重要。</p>
<p>通过丰富倒排文件的数据结构内容，这样的关系有可能在预处理阶段充分地表达出来，从而为检索服务算法的运行提供数据基础。文献[Anh and Moffat,2002]中介绍倒排索引的几种常见级别和索引的压缩技术，其中词级（Word-Level）的倒排索引记录索引词在文档中出现的每个位置信息，检索时通过这些位置[......]</p><p class='read-more'><a href='http://www.scseoer.com/hybrid-indexing-technique.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/hybrid-indexing-technique.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>结合计算机性能指标的考虑</title>
		<link>http://www.scseoer.com/combined-performance-consider.html</link>
		<comments>http://www.scseoer.com/combined-performance-consider.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 08:03:33 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内存]]></category>
		<category><![CDATA[吞吐量]]></category>
		<category><![CDATA[检索]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1493</guid>
		<description><![CDATA[<p>在诸如搜索引擎和数字图书馆等信息检索应用中，主要特点是数据密集型，处理算法比较简单。因此与CPU、内存等因素相比，I/O乃是决定系统性能的关键。进而，在网络访问条件下，I/O实际包含两个阶段，一是磁盘和内存之间，二是内存和网络之间。在不同条件下的，这两个阶段分别都可能成为系统性能瓶颈。下面主要讨论磁盘I/O。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1494" title="一些典型磁盘的性能数据" src="http://www.scseoer.com/wp-content/uploads/2011/08/cipan-shuju.jpg" alt="一些典型磁盘的性能数据" width="628" height="333" /></p>
<p style="text-align: center;">表8-2 一些典型磁盘的性能数据</p>
<p>SCSI是服务器常用的I/O总线，除了有较高的速度外，在I/O高负载下消耗CPU时间少也是一个重要优点（SCSI消耗CPU时间5%，IDE可以达到60-[......]</p><p class='read-more'><a href='http://www.scseoer.com/combined-performance-consider.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/combined-performance-consider.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件的一种性能模型</title>
		<link>http://www.scseoer.com/inverted-file-performance-model-2.html</link>
		<comments>http://www.scseoer.com/inverted-file-performance-model-2.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 07:44:48 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排文件]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1471</guid>
		<description><![CDATA[<p>所谓性能模型，在此就是要给出关于N，M，p(i)，d，B，r和k的一种关系，从而能够在给定系统内部参数的条件下对其外部行为（吞吐率）进行估计。
需要对p(i)和B，以及几个假设进行一下说明。p(i)是倒排表长度的统计分布函数，即M×(pi)的长度表示i的记录表的个数，i∈[0, N]。于是倒排表的平均长度为<img class="alignnone size-full wp-image-1475" title="倒排表的平均长度" src="http://www.scseoer.com/wp-content/uploads/2011/08/daopai-wenjian-xingneng-moxing.jpg" alt="倒排表的平均长度" width="244" height="72" />。</p>
<p>B是支持倒排文件运行的下层系统的瓶颈带宽。取决于不同的情况，可能是磁盘的I/O带宽，也可能是网络带宽，我们不做区别。这里讨论的模型的思路是根据同时到达的查询量k，得到一个数据量D，然后看能[......]</p><p class='read-more'><a href='http://www.scseoer.com/inverted-file-performance-model-2.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/inverted-file-performance-model-2.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件的概念</title>
		<link>http://www.scseoer.com/inverted-file.html</link>
		<comments>http://www.scseoer.com/inverted-file.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:39:04 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒排]]></category>
		<category><![CDATA[检索]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1462</guid>
		<description><![CDATA[<p>这一节的内容在信息检索算法的教科书中有不同形式的介绍。为本章的完整起见，在此给一简要概述。</p>
<p>所谓倒排文件（inverted file），是描述一个词项2集合（TERMS）元素和一个文档集合（DOCS）元素对应关系的数据结构，记：</p>
<p><img class="alignnone size-full wp-image-1463" title="倒排文件表达式" src="http://www.scseoer.com/wp-content/uploads/2011/08/daoxu-wenjian.jpg" alt="倒排文件表达式" width="504" height="48" /></p>
<p>当我们以“文档”为出发点时，我们可以讲di中包含哪些tj，或者某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中，进而还可以有它在某一个di中出现在哪些位置（含多少次）。用PL（tj）表示tj出现于其中的文档记录的集合，称为对应于t[......]</p><p class='read-more'><a href='http://www.scseoer.com/inverted-file.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/inverted-file.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>倒排文件性能模型</title>
		<link>http://www.scseoer.com/inverted-file-performance-model.html</link>
		<comments>http://www.scseoer.com/inverted-file-performance-model.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:23:11 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[倒序]]></category>
		<category><![CDATA[性能]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1459</guid>
		<description><![CDATA[<p>上一节，我们已经多次提到了倒排文件，可以说它是现代大规模搜索引擎工作的一个核心技术。虽然原理简单，但它灵活而高效，可以根据需要做不同的变通。本节结合检索系统的宏观需求和实现倒排文件的硬件参数，建立起倒排文件的一种性能模型，该模型对于在设计阶段估算倒排文件的运行效率有一定的指导意义。</p>
<p>评价一个大规模信息检索系统，有两个方面基本的考虑：效果（effectiveness）和效率（efficiency）[Frieder, et al.,1999]。“效果”常常也称为“质量”，指检索返回结果集合的准确性（[......]</p><p class='read-more'><a href='http://www.scseoer.com/inverted-file-performance-model.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/inverted-file-performance-model.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>检索过程</title>
		<link>http://www.scseoer.com/retrieval-process.html</link>
		<comments>http://www.scseoer.com/retrieval-process.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:20:03 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1457</guid>
		<description><![CDATA[<p>天网分布式检索系统执行查询时，由WWW查询服务器通过多播把用户输入的查询串发送给每一个索引节点。各索引节点独立在本机上执行查询，再把检索结果中排序最前的K（K=100）个结果返回给WWW查询服务器，在K值控制合理情况下，可以把返回结果数据包控制在一个以太网数据帧大小内，使系统具有很小的网络通信开销和延迟。WWW查询服务器上。</p>
<p>RetrievalAgent负责结果数据的收集、合并、重新排序，并访问文档服务器、提取摘要，格式化生成查询结果页面返回给查询用户。</p>
<p>文献[Wang, et al.,2001[......]</p><p class='read-more'><a href='http://www.scseoer.com/retrieval-process.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/retrieval-process.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>创建索引</title>
		<link>http://www.scseoer.com/index-create.html</link>
		<comments>http://www.scseoer.com/index-create.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:16:38 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[索引]]></category>
		<category><![CDATA[网页编码]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1455</guid>
		<description><![CDATA[<p>对一个中文搜索引擎，索引创建不仅仅是一个高效的倒排算法，它还包含许多重要的方面：索引词的选择，中文分词、编码识别与转换、网页净化、强健的页面分析等。</p>
1、索引词选择
<p>索引词的选择是检索系统实现的一个重要环节。现代搜索引擎普遍使用全文索引技术，即网页文档中所有词都参与索引。理想的索引词应该是表达文档内容的语义单位，即语言学里的词语，是那些专指义，而实际意义无法由组合成分相加得到的最小语言单位。但实际系统中中文文本必须通过自动分词程序的处理，分割成为独立的分词单位，再从分词结果中选择索引词。自动分词[......]</p><p class='read-more'><a href='http://www.scseoer.com/index-create.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/index-create.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>检索系统设计与结构</title>
		<link>http://www.scseoer.com/retrieval-system-design-structure.html</link>
		<comments>http://www.scseoer.com/retrieval-system-design-structure.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:13:12 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[检索系统]]></category>
		<category><![CDATA[网页数据]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1451</guid>
		<description><![CDATA[<p>搜索引擎检索系统的设计围绕检索效率和检索效果这两个指标展开。对一个成功的搜索引擎来说，首先必须具有相当高的检索效率。由于通用搜索引擎是面向大众的，其信息需求的重要性参差不齐，绝大多数可以说是“随心所欲”的，其价值不值得等待很长的时间，因此一个响应迟缓的系统只能意味着较少的用户。</p>
<p>按一般的习惯，搜索引擎对用户查询的响应时间应该不超过秒级，这相对于搜索引擎需要处理的海量网页数据而言是一个挑战。而如何提高搜索引擎检索效果，更是人们不断研究的课题，但它是要在保证检索效率的前提下才有意义。因此，信息检索领[......]</p><p class='read-more'><a href='http://www.scseoer.com/retrieval-system-design-structure.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/retrieval-system-design-structure.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>高性能检索子系统</title>
		<link>http://www.scseoer.com/high-performance-retrieval-subsystem.html</link>
		<comments>http://www.scseoer.com/high-performance-retrieval-subsystem.html#comments</comments>
		<pubDate>Wed, 03 Aug 2011 06:05:54 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[预处理]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1449</guid>
		<description><![CDATA[<p>以Google为代表的商业搜索引擎获得了很大成功。到2004年4月，Google已经索引了全世界42亿个页面，每天接受上亿次查询请求。但是商业搜索引擎的核心技术属于商业机密，在激烈的竞争环境下不会公开。而在研究领域，因为受到条件的限制，对大规模通用搜索引擎系统的技术探讨也较少。</p>
<p>在第二章我们介绍过，搜索引擎包括搜集子系统，预处理和服务子系统三大部分。有时候为方便起见，将建立索引和提供服务放在一起，称为检索子系统。搜集系统研究如何更快速抓取更多高质量网页的相关技术，检索系统研究如何进行网页文档索引[......]</p><p class='read-more'><a href='http://www.scseoer.com/high-performance-retrieval-subsystem.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/high-performance-retrieval-subsystem.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>算法评测</title>
		<link>http://www.scseoer.com/algorithm-evaluation.html</link>
		<comments>http://www.scseoer.com/algorithm-evaluation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:58:37 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1431</guid>
		<description><![CDATA[评价方法
<p>我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面，其中算法复杂度又包括时间复杂度和空间复杂度。在本节中，查全率是指消重算法所发现的转载网页占总网页的百分比，而准确率反映了算法所发现的转载网页中有多少是真正的转载网页。假设要处理的网页数为N，后4种算法使用的关键词个数为M，每个关键词的权值占4个字节，MD5摘要占16个字节，则算法1、2和5的空间复杂度约为(16×N)，算法3和4的空间复杂度约为(N×M×4+N×16)。可以看出这5种算法的空间复杂度都很小。本节将重[......]</p><p class='read-more'><a href='http://www.scseoer.com/algorithm-evaluation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/algorithm-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>消重算法</title>
		<link>http://www.scseoer.com/duplicate-elimination-algorithm.html</link>
		<comments>http://www.scseoer.com/duplicate-elimination-algorithm.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:45:31 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页消重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1425</guid>
		<description><![CDATA[算法基础
<p>当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间模型来完成用户的检索请求的。典型的系统包括Google和天网系统。通常这类系统在对已抓取回来的网页进行分析时，要提取网页中出现的关键词和摘要信息，并以关键词作为网页的特征项。</p>
<p>天网系统在搜集并分析一篇网页时，提取并记录了网页中出现的关键词，同时根据公式赋予每个关键词一个权值，这些关键词的权值构成一个向量空间，可以用来表示该网页。另外，我们还从网页中提取了512个字节的有效文字（指用户实际访问该网页时能看到的文字，在html和其[......]</p><p class='read-more'><a href='http://www.scseoer.com/duplicate-elimination-algorithm.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/duplicate-elimination-algorithm.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>网页消重算法</title>
		<link>http://www.scseoer.com/webpage-duplicate-elimination-algorithm.html</link>
		<comments>http://www.scseoer.com/webpage-duplicate-elimination-algorithm.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:18:28 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页指纹]]></category>
		<category><![CDATA[网页消重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1423</guid>
		<description><![CDATA[<p>如前所述，我们粗略地将内容完全相同的网页称作镜像网页，主题内容相同的网页称作转载网页。就消除主题内容重复的网页而言，我们完全可以把镜像网页看作转载网页的特例来处理。由此，所谓网页消重就是指去除网页集合中转载网页的过程。</p>
<p>国际上对转载文档消重算法的研究最初主要是针对大型文件系统的，后来又被拓展应用于数字化图书馆项目和搜索引擎系统。美国Arizona大学的研究人员采用计算文档的重叠程度的方法来发现一个大型文件系统中的相似文件。Stanford大学的研究人员开发了SCAM (Stanford Copy[......]</p><p class='read-more'><a href='http://www.scseoer.com/webpage-duplicate-elimination-algorithm.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-duplicate-elimination-algorithm.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>模型应用及实验研究</title>
		<link>http://www.scseoer.com/model-experimental-research.html</link>
		<comments>http://www.scseoer.com/model-experimental-research.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:16:42 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容重复]]></category>
		<category><![CDATA[网页噪音]]></category>
		<category><![CDATA[网页重复]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1417</guid>
		<description><![CDATA[DocView模型在网页自动分类中的应用及实验分析
<p>网页与传统文本的一个重要区别是网页内容的随意性，这就导致网页内容中的噪音内容很多，因此，在网页分类过程的开始首先对网页作适当的净化，可以在一定程度上改进分类的准确性。将DocView模型中正文要素和相关超链要素重新组合就得到了净化的网页。在本实验中，我们以一个现有的分类器作为基准，提取基准分类器的训练集和测试集中网页的DocView模型，并用模型中正文要素和相关超链要素组合成的新网页替换原始网页，从而形成净化的训练集和测试集。然后，通过对净化后[......]</p><p class='read-more'><a href='http://www.scseoer.com/model-experimental-research.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/model-experimental-research.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>提取DocView模型要素的方法</title>
		<link>http://www.scseoer.com/extraction-docview-model-element-method.html</link>
		<comments>http://www.scseoer.com/extraction-docview-model-element-method.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 09:08:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页噪音]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1411</guid>
		<description><![CDATA[<p>对Web上的网页，我们根据其网页类型可以将它们分为三类：有主题网页、Hub网页和图片网页。针对三类网页的信息提取算法各不相同，因此在对网页进行深入分析之前首先要判断网页的类型。为此，我们首先描述这三类网页的特征及判断方法，然后将对面向有主题网页的模型提取算法进行详细的讨论，最后简要的介绍面向Hub网页和图片网页的算法。</p>
1、网页类型判断方法
<p>在视觉上，大多数网页是容易区分类型的，因为三种类型的网页有着较为明显的视觉特征。在有主题网页中通过成段的文字描述了一件或多件事物，虽然也会有图片和超链，但这[......]</p><p class='read-more'><a href='http://www.scseoer.com/extraction-docview-model-element-method.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/extraction-docview-model-element-method.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>网页的表示</title>
		<link>http://www.scseoer.com/webpage-representation.html</link>
		<comments>http://www.scseoer.com/webpage-representation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:56:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[内容]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[标签]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1405</guid>
		<description><![CDATA[<p>网页的表示是网页内容分析的基础，在网页内容分析过程中通常需要两个层次的表示，抽象表示和量化表示。</p>
<p>抽象表示是以网页制作规范（如HTML规范）为依据和出发点，构造出能体现网页内容结构和内容重要性等信息的表示模型，其目的是充分利用网页制作规范，挖掘出网页中隐含的信息，为后续量化表示提供更多可利用信息。对于HTML网页，最常用的方法是构造网页的标签树。</p>
<p>量化表示则是从计算机处理的角度出发，利用信息检索领域的技术和从网页中挖掘的隐含信息，生成计算机可以直接用于计算的表示模型，如向量空间模型等。下面对这两[......]</p><p class='read-more'><a href='http://www.scseoer.com/webpage-representation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-representation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>DocView模型</title>
		<link>http://www.scseoer.com/docview-model.html</link>
		<comments>http://www.scseoer.com/docview-model.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:41:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[网页内容]]></category>
		<category><![CDATA[网页噪音]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1401</guid>
		<description><![CDATA[<p>本节中提出的DocView模型包括：网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接要素属于网页的内容数据，而其他6项则属于网页的元数据。下面将对模型中的各个要素作详细描述。</p>
<p>网页标识是对Web上网页的唯一性标识，在DocView模型中使用网页的URL作为网页标识。</p>
<p>网页类型是根据网页内容的表现形式进行划分的，在本节中将网页分为三类：有主题网页（topic）、Hub网页（hub）、图片网页（pic）。其中，有主题网页是指网页中通过文字描述了一件或多件事物[......]</p><p class='read-more'><a href='http://www.scseoer.com/docview-model.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/docview-model.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页净化与消重【引言】</title>
		<link>http://www.scseoer.com/introduction.html</link>
		<comments>http://www.scseoer.com/introduction.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:35:47 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[网页噪音]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1399</guid>
		<description><![CDATA[<p>今天，当我们浏览Web，从中获取所需信息的同时，还会常常看见大量和我们所关心内容无关的导航条、广告信息、版权信息以及调查问卷等，我们称之为“噪音”内容。有时候，我们可能从这些噪音内容中得到一些意外的惊喜；另一些时候，我们可能不喜欢这些东西消耗人类宝贵的注意力资源。同时，我们观察到噪音内容通常伴随着相关的超链。因此，噪音内容会导致相互链接的网页常常并无内容相关性。这样，网页内容的混乱不仅给Web上基于网页内容的研究工作带来困难，也给基于网页超链指向的研究工作带来困难。另外，随着Web上各种研究与应[......]</p><p class='read-more'><a href='http://www.scseoer.com/introduction.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/introduction.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页净化与消重</title>
		<link>http://www.scseoer.com/webpage-purification-eliminating.html</link>
		<comments>http://www.scseoer.com/webpage-purification-eliminating.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:28:25 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[网页净化]]></category>
		<category><![CDATA[网页消重]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1397</guid>
		<description><![CDATA[<p>网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分。所谓网页净化（noise reduction）就是识别和清除网页内的噪音内容（如广告、版权信息等），并提取网页的主题以及和主题相关的内容；消重(replicas or near-replicas detection)是指去除所搜集网页集合中主题内容重复的网页。建索引一般是在消重后的网页集上进行的，这样就可以保证用户在查询时不会出现大量内容重复的网页。</p>
<p>本章第一节论述了一种HTML网页净化与元数据提取的方法，通过它我们可以从一个网页源文件[......]</p><p class='read-more'><a href='http://www.scseoer.com/webpage-purification-eliminating.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/webpage-purification-eliminating.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>可扩展搜集子系统小结</title>
		<link>http://www.scseoer.com/extensible-collection-subsystem.html</link>
		<comments>http://www.scseoer.com/extensible-collection-subsystem.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:26:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[搜集系统]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1395</guid>
		<description><![CDATA[<p>第一节以天网这样一个实际系统由集中式到分布式的过程为例，说明了基于Web信息急速膨胀的需要而产生的对搜索引擎技术发展的要求。</p>
<p>提出并设计了可扩展Web信息搜集系统结构，使之达到能够搜集数量不断增长的网页的要求。</p>
<p>在详细介绍可扩展Web搜集系统的主要设计思想时，还对比介绍了集中式搜集系统的设计与实现。它的实际应用就是天网系统。</p>
<p>目前此可扩展搜集系统结构已经实际应用于天网2.0系统，自2001年6月以来，共进行了多次大规模的Web信息搜集工作，采用多台搜索机器分布式并行工作。其中2001年11月6日[......]</p><p class='read-more'><a href='http://www.scseoer.com/extensible-collection-subsystem.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/extensible-collection-subsystem.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>系统的动态可配置性设计</title>
		<link>http://www.scseoer.com/configuration-design.html</link>
		<comments>http://www.scseoer.com/configuration-design.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:23:39 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[搜集]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1392</guid>
		<description><![CDATA[<p>并行系统中WSR模块的存在，使每个节点都能够保持当前系统中所有节点的最新信息，是系统动态可配置性的前提。在保证系统负载平衡的条件下，我们考虑三种方法保证系统具有动态调度性：</p>
<p>采用散列函数动态调度url。</p>
<p>第二个方案是结合第一种方法，同时每个节点记录着一张WWW主机表，这张表在各个节点是相同的，其中每一条记录包含一个WWW主机及其所对应的一个节点。</p>
<p>采用逻辑上二级映射的方法。首先用散列函数映射URL到一张逻辑表上，然后将这张表上的相应部分映射到各个节点。
对以上三种方法通过对节点数增减1的情况分析[......]</p><p class='read-more'><a href='http://www.scseoer.com/configuration-design.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/configuration-design.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>性能测试和评价</title>
		<link>http://www.scseoer.com/performance-test-evaluation.html</link>
		<comments>http://www.scseoer.com/performance-test-evaluation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:13:50 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[系统]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1387</guid>
		<description><![CDATA[<p>上述系统设计首先通过一个类似于“trace driven simulation”的方法进行了模拟。具体做法是在一个单节点网页搜集系统的正常运行过程中加入数据采集程序，产生并行算法需要使用的模拟数据。对于每个网页，采集了它的URL和所包含的URL链接，总共得到了761,129篇网页的信息，数据量大小为507MB。以此作为我们并行算法模拟的输入，分别考察了节点数n为2，4，8，16四种情况。为对比起见，在每次运行多节点模拟时也同时运行单节点的模拟。下面是从几个方面对实验结果的评价。</p>
1、负载平衡分析[......]<p class='read-more'><a href='http://www.scseoer.com/performance-test-evaluation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/performance-test-evaluation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>关于性能的讨论</title>
		<link>http://www.scseoer.com/discussion-performance.html</link>
		<comments>http://www.scseoer.com/discussion-performance.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 08:06:44 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[带宽]]></category>
		<category><![CDATA[搜集系统]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1383</guid>
		<description><![CDATA[<p>从实际应用的不同需求出发，海量网页搜集系统的性能可以有不同的定义，涉及四个主要参数，完成一批网页搜集所花的时间（T，小时），收到的网页数量（P），系统和Internet之间的带宽（B，Mbps），参与搜集的机器节点数（n）。如果按照平均每篇网页15KB数据量计算，注意到上述参数的单位，我们有最基本的</p>
<p><img class="alignnone size-full wp-image-1384" title="搜索网页所花的时间 表达式" src="http://www.scseoer.com/wp-content/uploads/2011/08/souji-wangye-shijian.jpg" alt="搜索网页所花的时间 表达式" width="270" height="55" /></p>
<p>例如，P=108，B=100，T33.3小时。当然，这是最理想的情况了。通常，如果B表示网络连接的额定带宽，≥<img title="b" src="http://www.scseoer.com/wp-content/uploads/2011/08/b.gif" alt="" width="12" height="18" />表示实际达到的有效带宽，B&#62;&#62;<img class="alignnone size-full wp-image-1385" title="b" src="http://www.scseoer.com/wp-content/uploads/2011/08/b.gif" alt="" width="12" height="18" /> 。虽然有效带宽是随时间变化的，但在固定的环[......]</p><p class='read-more'><a href='http://www.scseoer.com/discussion-performance.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/discussion-performance.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>节点间URL的划分策略</title>
		<link>http://www.scseoer.com/node-url-partition-strategy.html</link>
		<comments>http://www.scseoer.com/node-url-partition-strategy.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:56:00 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[网页抓取]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1379</guid>
		<description><![CDATA[<p>为方便讨论起见，本节我们约定如下符号和术语。</p>
<p>URLs= {URL1, URL2, …}，所要完成收集的网页地址集合。这是一个开放和动态变化的集合。所谓“开放”，指其中元素的个数是事先未知的，具体有哪些元素当然也事先未知。在本文讨论的意义下，URLs的大小至少在千万量级。所谓“动态变化”，指它在收集过程中随着新发现的地址增加。通常，一次搜集过程由某些“种子”网页开始，沿着它们包含的超链，按照某种搜索策略（先宽，先深，等等）往下进行，直到没有新的地址发现，或者人为决定不要再进行了（例如磁盘已满）。[......]</p><p class='read-more'><a href='http://www.scseoer.com/node-url-partition-strategy.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/node-url-partition-strategy.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>利用并行处理技术高效搜集网页的一种方案</title>
		<link>http://www.scseoer.com/parallel-processing-technology.html</link>
		<comments>http://www.scseoer.com/parallel-processing-technology.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:48:00 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[搜集]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1377</guid>
		<description><![CDATA[<p>Web上成千上万的WWW服务器通过网页之间的链接构成海量信息，各个主机之间的联系或多或少，但都可以说是相对独立的。单处理机系统受限于CPU的处理能力、磁盘存储的容量，不可能具备处理这种海量信息的能力，更不必说跟上Web信息的飞速增长了。</p>
<p>采用并行处理技术成为一个自然的选择。高性能并行计算机系统的种类有很多：SMP, NUMA, MPP, 机群。比较起来，后者对我们的应用是最适合的。这不仅是由于其价格较低，还由于我们网页收集应用的基本特征：操作单纯，进程之间的通信量不大，对磁盘容量和聚集I/O吞吐[......]</p><p class='read-more'><a href='http://www.scseoer.com/parallel-processing-technology.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/parallel-processing-technology.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>集中式搜集系统</title>
		<link>http://www.scseoer.com/centralized-collection-system.html</link>
		<comments>http://www.scseoer.com/centralized-collection-system.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:45:36 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[robots.txt]]></category>
		<category><![CDATA[网页抓取]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1372</guid>
		<description><![CDATA[<p>搜集系统包括主控模块、搜集器和原始数据库。主控模块是其中的控制模块，它主要负责：</p>
<ol>
<li>与网页抓取与分析进程的交互：发送配置信息，发送URL，接收分析结果。</li>
<li>与原始数据库的数据交互。</li>
<li>访问控制：智能导向，robots协议，主机访问频度，IP地址等的控制。</li>
<li>与外部系统的接口。</li>
</ol>
系统设计目标
<ol>
<li>主控与网页抓取与分析进程的分布。在系统设计中，必须采用分布式技术将任务分布到多台机器上并行的处理。海量网页独立的分布在网络上，对并行访问提供了充分的可能性和合理性。同时，分布并行还会节省网络带宽资源。</li>
<li>可定制性[......]</li></ol><p class='read-more'><a href='http://www.scseoer.com/centralized-collection-system.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/centralized-collection-system.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>天网系统结构</title>
		<link>http://www.scseoer.com/net-system-structure.html</link>
		<comments>http://www.scseoer.com/net-system-structure.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:28:40 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[天网]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1369</guid>
		<description><![CDATA[<p>1997年发布的天网1.0版采用单机搜集、单机服务的系统结构（我们习惯称之为集中式结构）不适应Web上信息规模的迅猛发展，为此我们从1999年开始花了大约一年的时间设计和实现了天网2.0版的分布式并行系统结构。</p>
<p>系统分布的核心是数据的分布。对搜集部分而言，实际是将URL分布在执行搜集任务的机器之间，保证它们搜集的URL不会重复。对查询部分，则是将索引数据分布在执行检索任务的机器之间。天网2.0系统概貌如图6-1所示。为了突出搜集和查询部分的并行化问题，其中略去了搜索引擎三段工作流程中的预处理部分[......]</p><p class='read-more'><a href='http://www.scseoer.com/net-system-structure.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/net-system-structure.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>对质量和性能的追求</title>
		<link>http://www.scseoer.com/ruality-performance.html</link>
		<comments>http://www.scseoer.com/ruality-performance.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:14:20 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜集系统]]></category>
		<category><![CDATA[相关性]]></category>
		<category><![CDATA[网页排序]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1366</guid>
		<description><![CDATA[<p>在“WEB搜索引擎基本原理和技术”中，我们讨论了搜索引擎的基本工作原理，并通过一个实际的例子，阐释了这些原理在一个简单搜索引擎中实现的各个细节。同时，在上篇中我们也多次提到了性能问题和质量问题。尽管没有展开讨论，但其中的要素已经显示出来。事实上，这两个问题在搜索引擎的三个子系统中都有不同程度的体现。</p>
<p>中篇将围绕这些因素展开，具体来说，将讨论五方面的内容：</p>
<p>1．一个并行搜集子系统的详细设计方案。尽管一个搜集子系统的硬件并行度不需要很高，但不做并行是达不到性能要求的。而能否在较短的时间内搜集到足够多[......]</p><p class='read-more'><a href='http://www.scseoer.com/ruality-performance.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/ruality-performance.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>信息查询服务小结</title>
		<link>http://www.scseoer.com/information-inquiry-services-summary.html</link>
		<comments>http://www.scseoer.com/information-inquiry-services-summary.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:10:29 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1364</guid>
		<description><![CDATA[<p>信息查询服务作为搜索引擎三个步骤（网页搜集，预处理和查询服务）的最后环节，负责把前两个阶段建立好的索引网页库、索引词表、倒排表提供给用户服务，这个交互的过程是通过查询代理完成的。查询代理接受用户的查询请求，在倒排索引中查找符合要求的文档返回，并且提供网页快照功能。</p>
<p>搜索引擎原理上篇第三、第四和第五章这三个连续篇章，以设计并实现一个小的搜索引擎 TSE 为目标，讲述了目前流行的搜索引擎的基本特征，使读者可以快速对搜索引擎技术的整体有一个具体的认识，为进一步理解本书的中篇和下篇内容打下基础。对搜索引[......]</p><p class='read-more'><a href='http://www.scseoer.com/information-inquiry-services-summary.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/information-inquiry-services-summary.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>查询结果的显示</title>
		<link>http://www.scseoer.com/show-query-results.html</link>
		<comments>http://www.scseoer.com/show-query-results.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 07:07:53 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[查询方式]]></category>
		<category><![CDATA[算法]]></category>
		<category><![CDATA[网页快照]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1360</guid>
		<description><![CDATA[列表显示摘要结果
<p>用户界面主要用于和用户交互，包括响应用户的查询检索和记录用户的行为。用户界面主要负责和用户直接接触的事件，如图5-1 所示，它包括：</p>
<ol>
<li>获取用户的查询请求，提交给查询代理；</li>
<li>查询代理检索索引词表和倒排表，产生结果按照一定的输出格式显示给
用户;</li>
<li>记录日志，包括用户查询短语和查询时间等信息。</li>
</ol>
<p>对于功能 1，通过 HTML 语言的&#60;FORM&#62;来实现。用户在相应的检索表格中输入需要查询的短语，然后提交即可。对于一个已经提交的检索，服务器方启动一个 CGI 程序进行响应。[......]</p><p class='read-more'><a href='http://www.scseoer.com/show-query-results.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/show-query-results.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>结果集合的形成</title>
		<link>http://www.scseoer.com/result-set-formation.html</link>
		<comments>http://www.scseoer.com/result-set-formation.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 06:59:30 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[检索算法]]></category>
		<category><![CDATA[运算]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1356</guid>
		<description><![CDATA[<p>根据用户输入的查询短语，产生结果集合，是检索倒排索引的过程。首先对用户输入的查询短语应用第四章中讲到的中文自动分词技术，获得查询q的向量表示，q  =  {t1,t2,&#8230;tm}，然后执行检索算法，算法描述如图  5-2，实现代码在文件TSESearch.cpp中。这个算法是实际搜索引擎检索算法的简化，应用在TSE中。实际搜索引擎的倒排索引中记录了索引词的权重和位置信息，检索阶段应该一起读出，并加以综合考虑；并且为了在获得结果前读取尽量少的数据，查询q中的ti按文档频率的倒数降序排列。[......]</p><p class='read-more'><a href='http://www.scseoer.com/result-set-formation.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/result-set-formation.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>检索的定义</title>
		<link>http://www.scseoer.com/retrieval.html</link>
		<comments>http://www.scseoer.com/retrieval.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 06:48:04 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[检索]]></category>
		<category><![CDATA[相关网页]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1345</guid>
		<description><![CDATA[<p>首先，定义系统的元检索—单个词汇的检索方式。</p>
<p>设<img class="alignnone size-full wp-image-1346" title="检索的定义 表达式一" src="http://www.scseoer.com/wp-content/uploads/2011/08/jiansuo-1.jpg" alt="检索的定义 表达式一" width="134" height="34" />为系统的特征项词典；集合<img class="alignnone size-full wp-image-1347" title="检索的定义 表达式二" src="http://www.scseoer.com/wp-content/uploads/2011/08/jiansuo-2.jpg" alt="检索的定义 表达式二" width="149" height="37" />为系统当前保存的网页集合；系统的索引可表示为集合：<img class="alignnone size-full wp-image-1348" title="检索的定义 表达式三" src="http://www.scseoer.com/wp-content/uploads/2011/08/jiansuo-3.jpg" alt="检索的定义 表达式三" width="286" height="28" />，其中 r(t, p) 是相关度函数，表示词汇t 和网页 p 的相关度，如果 t 是网页 p 的一个特征项，那么它就使用相关度算法给出相应的正值，如果不是，相关度为  0；搜索引擎系统 S 为一个三元组<img class="alignnone size-full wp-image-1349" title="检索的定义 表达式四" src="http://www.scseoer.com/wp-content/uploads/2011/08/jiansuo-4.jpg" alt="检索的定义 表达式四" width="261" height="27" />，则有公式（5-1）：</p>
<p><img class="alignnone size-full wp-image-1350" title="检索的定义 表达式五" src="http://www.scseoer.com/wp-content/uploads/2011/08/jiansuo-5.jpg" alt="检索的定义 表达式五" width="483" height="32" /></p>
<p>其中，WP 代表检索词汇t 的相关网页集合， 函数是系统 S 的元检索函数。</p>
<p>显然，用户不可能总是进行词汇级的检索。大部分的用户输入的检索是词组或自然[......]</p><p class='read-more'><a href='http://www.scseoer.com/retrieval.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/retrieval.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>查询服务的系统结构</title>
		<link>http://www.scseoer.com/query-service-system-structure.html</link>
		<comments>http://www.scseoer.com/query-service-system-structure.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 06:31:26 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[排序]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1342</guid>
		<description><![CDATA[<p>在TSE中信息查询对应第三章图3-4的右侧部分，我们将它单独列出来，去掉TSE中没有实现的日志挖掘部分后，得到信息查询服务的系统结构，如图5-1所示。</p>
<p style="text-align: center;"><img class="alignnone size-full wp-image-1343" title="信息查询的系统结构" src="http://www.scseoer.com/wp-content/uploads/2011/08/chaxun-xitong-jiegou.jpg" alt="信息查询的系统结构" width="213" height="137" /></p>
<p style="text-align: center;">图5-1 信息查询的系统结构</p>
<p>经过TSE的Web信息预处理，传递到服务阶段的数据包括索引网页库和倒排文件，倒排文件中包括倒排表和索引词表。查询代理接受用户输入的查询短语，切分后，从索引词表和倒排文件中检索获得包含查询短语的文档并返回给用户。</p>
<p>因为内存与外存（磁盘）的响应时间差距很大，在实际使用的搜索引擎中，为了提高响应时间，索引词表是驻留在内存[......]</p><p class='read-more'><a href='http://www.scseoer.com/query-service-system-structure.html' rel='nofollow'>阅读全文</a></p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/query-service-system-structure.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>网页预处理小结</title>
		<link>http://www.scseoer.com/pretreatment-webpage.html</link>
		<comments>http://www.scseoer.com/pretreatment-webpage.html#comments</comments>
		<pubDate>Tue, 02 Aug 2011 06:27:07 +0000</pubDate>
		<dc:creator>何清勇SEO博客</dc:creator>
				<category><![CDATA[SEO帮助]]></category>
		<category><![CDATA[分析]]></category>
		<category><![CDATA[切词]]></category>
		<category><![CDATA[索引]]></category>

		<guid isPermaLink="false">http://www.scseoer.com/?p=1340</guid>
		<description><![CDATA[<p>本节“搜索信息的<a href="http://www.scseoer.com/pretreatment-system-structure.html" title="网页预处理">预处理</a>”结合 <a href="http://www.scseoer.com/small-search-engine-system.html" title="TSE">TSE</a> 讲解了索引网页库算法，中文切词算法，分析网页和建立倒排文件索引的方法。</p>
<p>“搜索信息的预处理”作为<span class='wp_keywordlink_affiliate'><a href="http://www.scseoer.com/search-engine-concept.html" title="搜索引擎" rel="nofollow">搜索引擎</a>运行三个阶段（网页搜集、预处理和查询服务）的中间环节，具有举足轻重的地位。对于本章内容的理解，可以加深对于整个搜索引擎流程的理解，同时考虑到网页搜集和查询服务模块，也会更清楚为什么这个环节需要考虑中文切词、分析网页和建立倒排索引等问题。</p>]]></description>
		<wfw:commentRss>http://www.scseoer.com/pretreatment-webpage.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

