术语1:索引与爬行
当搜索引擎已经索引一个网站的时候,这意味着什么?这说明我们的网站以[site:www.site.com]这种形式出现在搜索引擎中,并且这个页面已经被添加至搜索引擎的数据库中。但是这并不意味这该网页就已经被搜索引擎爬行了。这就是为什么我们总是会看见这样的情况:
索引与爬行两者之间存在着优先关系:
首先,页面的URL被发现;
然后,搜索引擎爬行该页面;
最后,搜索引擎索引该页面。
索引包含了搜索引擎所提取的网页中重要的词语或者短语,并不包含任何其他文档或文件。索引中的每个词语或者短语都指向其相应的文档或者文件。
另一种解释:如果搜索引擎知道了网站的URL,将会判断是否应将该URL添加至爬行系统。如果已添加至爬行系统,搜索引擎会根据一些算法来将这些URL按照优先级来排序,最后按照这种顺序来爬行相应网页。当该页面已经被爬行了之后,搜索引擎会启动另一算法来评估该页面是否有必要放入索引系统。因此,并不是每一个页面搜索引擎都会爬行和索引。搜索引擎只爬行那些它们认为有价值、有意义的页面。
注意
Robot.txt文件能够阻止搜索引擎爬行该网页。搜索引擎会根据Robot.txt中的规则来爬行网站。如果存在网页在Robot.txt文件设置为禁止爬行,那么搜索引擎只能够通过一些类似于网站内链中的文本信息了解该页面的部分内容。因此,如果你想要网页被搜索引擎爬取,最好检查一下Robot.txt文件。
谷歌与其他搜索引擎如:必应、雅虎等,有一点不同。当其他因素极强地预示该页面应该被索引,谷歌可能仍然会将该未被索引过的页面显示出来。而必应和雅虎则会遵从你的网页规则。
术语2:PageRank
另一大搜索引擎的工作原理就是PageRank。对PageRank影响最大的因素就是链接以及搜索引擎如何处理它们。首先你要知道搜索引擎在爬取页面的时候,是不会处理链接的。因此PageRank和爬行是分开进行的。
PageRank是对页面质量和链接质量的一种测量。页面PR值的多少是我们无法控制的,搜索引擎会根据一系列的算法来综合评估一个网页的PR值。但是我们可以通过不断的优化来提高页面PR值升高的可能性。但是以下四点可能会对PageRank产生负面影响:
在链接中设置nofollow属性;
在Robot.txt文件中设置disallow属性;
原始页面中存在404错误;
目标页面中存在404错误。
以上详细介绍了搜索引擎工作的两大术语,相信会对你的搜索引擎优化工作有所帮助。搜索引擎针对网站综合排名研制了非常多繁杂的算法,以确保公平公正的排名结果。我们需要做的就是踏实地做好优化工作,搜索引擎便会给予你相应的回报。
更多信息请查看IT技术专栏