很多人都明白,搜索引擎使用了倒序索引即以词项为中心的信息索引。
经常看到很多SEOER在抱怨,我的文章怎么没有更新、怎么没有收录之类的。那么到底搜索引擎是否已经收录了你的文章了呢?又或者说搜索引擎为什么不收录你的文章?
本来想列举一下搜索引擎的数据级别,可惜找了一番也没见到这类数据的报告,那就大致猜测一下吧,据我所知百度的信息索引规模应该不少于30TB,只是根据其他搜索引擎数据进行简单推算,那么多数据存储和计算如何去实现?随着信息量的越来越大,搜索引擎建立索引的时间及性能等方面的消耗越来越大。而实际上呢?
搜索引擎中20%的数据就足以满足90%以上用户的需求了,如上所述搜索引擎中数以百亿的页面中相当一部分页面的信息是对用户没有价值的。当然搜索引擎不会摒弃这些数据,为了市场份额并满足极少数用户的需求搜索引擎会抓取并保留这些数据的。对了这里在说明一点,搜索引擎是会保留页面内容至内容服务器以备运算的,这个应该大家都知道。
前面算是基础知识充电补充,也正是上面上面所述的这些原因,搜索引擎采用了基于基于层次结构的索引技术,没错也是现在百度在做的。
简单做了一图便于大家理解,白名单站点中主要就是门户或网页目录信息,比如谷歌也雅虎曾使用DMOZ目录就是一个例子。高质量站点及就是一些编外协信息站点了,在这些站点被所使用搜索引擎认为是高中高质量可信赖的信息啦来源,大部分人的站点都属于普通只能站点,占据互联网信息比例的90%左右。
差不多了,我可以解答开头的问题了。
1.搜索引擎是否收录你的文章?
如果你看log有爬行痕迹就已经被抓取了,所以说搜索引擎已经收录了你的文章。搜索引擎收录了你的文章后首先进行的是质量度的品评定,比如是否原创,是否有价值有价值,然后进行索引,而你的信息的价值是由搜索引擎来评定的,给予的分值就是你最后的排名了。
2.文章的排名怎么决定的?
如果要扯以后才扯,首先肯定是以内容价值为优先,其次是站点的信誉值。当然了你会发现质量度高的内容排在后面,因为你站点的信誉与竞争对手相差悬殊导致的。这也是我经常说的一个观点。