搜索引擎如何收录网站内容?

对蜘蛛来说,这种特定类型的索引页是爬行的有效渠道,但是蜘蛛爬行频率和网站文章更新频率不尽相同,文章链接很有可能就被推到翻页条中,这样蜘蛛不可能每天从第1个翻页条爬到第80个,然后一个文章一个文章的抓取,到数据库对比,这样太浪费蜘蛛时间,也浪费你网站的收录时间,所以蜘蛛需要对这种特殊类型的翻页式网页来一个额外的抓取机制,从而保证收录资源的完全。

有些页面中每个文章链接后面跟随着对应的发布时间,通过文章链接对应的时间集合,判断时间集合是否按大到小或小到大排序,如果是的话,则说明网页中的资源是按发布时间有序排布,反之亦然。

蜘蛛对网页的类型,网页中翻页条的位置,翻页条对应的链接,以及列表是否按照时间排序都会做相应的判断,并根据实际的情况进行处理,但是蜘蛛毕竟不能做到100%的识别准确率,所以如果站长在做翻页条时不要用JS,更不要用FALSH,同时要有频率的进行文章更新,配合蜘蛛的抓取,这样就可以极大地提高蜘蛛识别的准确率,从而提高蜘蛛在你网站的抓取效率。

发表评论

Scroll to Top