SEO > SEO帮助 > 关于性能的讨论
2011八月2

关于性能的讨论

莫意思一般般还可以还不错值得推荐 5.00
0 Comments

从实际应用的不同需求出发,海量网页搜集系统的性能可以有不同的定义,涉及四个主要参数,完成一批网页搜集所花的时间(T,小时),收到的网页数量(P),系统和Internet之间的带宽(B,Mbps),参与搜集的机器节点数(n)。如果按照平均每篇网页15KB数据量计算,注意到上述参数的单位,我们有最基本的

搜索网页所花的时间 表达式

例如,P=108,B=100,T33.3小时。当然,这是最理想的情况了。通常,如果B表示网络连接的额定带宽,≥表示实际达到的有效带宽,B>> 。虽然有效带宽是随时间变化的,但在固定的环境下,同样一段长时间(例如一天)的平均有效带宽基本上是稳定的,因此讨论 有意义。下面是关于性能的几种考虑:

1、在给定硬件条件(节点数,网络有效带宽)下,给定时间内搜集不同网页的数量。上面提到过,在一段时间的平均有效带宽是有意义的。一次搜集过程通常要历经几天甚至几周,因此用有效带宽来比较系统设计是合理的。

2、给定硬件条件(节点数,网络有效带宽),达到某给定网页搜集量所花的时间(越少越好)。网页搜集过程告诉我们,刚开始会比较快,unvisited_list迅速增长,每一个抓回来的网页都带回来一些新的URL。但随着过程的进行,进展会越来越慢,不仅新发现的URL少了,更重要的是新发现的HOST(URL)少了,这导致搜集网页逐渐集中到几个大网站上,网站本身的吞吐能力限制了搜集速度,甚至引起比较多的HTTP应答失败。同时,由于网站的数量变少,负载平衡可能开始出现问题(HOST(URLs) >> n不再成立)。这表现为随着搜集过程的进行,每天收到的网页越来越少。在实际中,人们可能先根据经验确立一个目标网页数量,达到后就停止。例如我们在2003年初估计中国的网页数量在1亿以上,但超过2亿的可能性不大,再考虑到以先宽方式搜集时得到的网页的重要性随时间快速递减,于是搜集1亿左右就停止会是一种合理的考虑。

在给定时间(T)内,完成搜集给定目标网页数量(P)所需的节点个数(n)。有许多因素使得给定P,n并不和T成线性反比。较小的n意味着许多好处:较小的节点之间通信开销,较少的外部通信资源(出口带宽)冲突,较好的负载平衡。因此,如果我们有一个搜集时间长度(例如两周),确定一个目标网页数量(例如1亿),也许用n = 20会提前3、5天,但用n = 5可能也能满足要求。

无论哪一种标准,性能的瓶颈可能在不同的条件下表现在系统的不同部分。如前所述,抓取一个网页的任务包含有许多阶段,其中涉及系统的不同部件:处理器,磁盘,网络带宽。例如当节点数比较少时,处理器和磁盘会是个瓶颈,因为每个节点需要启动较多的抓取进程,否则达不到所需的抓取能力。当节点较多时(例如大于10),网络带宽就成为主要矛盾。Internet Archive的Brewster告诉我们,他用6台机器,T1连接,每次抓两个月,2×109左右网页,30TB数据量。30TB/60 = 0.5TB/天,需要46Mps以上的平均有效带宽。

你可能也喜欢:

本文标签:, , ,更多SEO标签

已更新:08/06/2011

文章标题:关于性能的讨论
本文地址:http://www.scseoer.com/discussion-performance.html
版权申明:本文原创于何清勇SEO博客«SEO帮助»栏目,转载请注明作者和原创地址!

本文目前尚无任何评论.

我来说两句