|
百度自己是怎么说Spider抓取的?时间:2019-10-23 在spider的网页抓取上,百度从站点评价、本站链接、pattern聚合、用户反馈等方面给出了一些建议: 1.站点评测 指标包括时效性、原创性、权威性、用户访问友好性。 这里面需要注意三点: 首先,注意新域名之前是否被滥用过; 其次是注意域名是不是被黑。可以使用抓取诊断工具,查看源代码,是不是被藏着小黑链; 此外,不要用泛滥的域名,很多免费域名堆积了一大堆垃圾站,百度会评价聚合域名的价值,聚合的评价效果会影响小站,所以建议用比较常见或者传统的域名; 2.本站的链接关系 过多的层级和链接对百度Spider来说是很不友好的,链接深度越高,价值评估越低。 超链关系尽量要扁平,从首页就能够发现; 优质的前链对后链收录有促进作用; 时效性强的内容往前推; 3.pattern Spider抓回链接,将相似的内容聚合成Pattern,和网页内容相似的站点会给聚和,这种聚合决定了抓取。 选比较好的进行实时推送,可以形成一个较好的Pattern 4.用户的反馈数据 包括点击量,浏览时长,跳出率等,要给用户提供有价值的内容; 5.其他 Url长度要均匀规范。 参数过多导致的长Url,在Spider抓取的时候往往被认为没有价值,长尾会被Pass掉,不要搞无谓的参数; 百度Spider非常不欢迎爆发式的内容增长,而且会打压。 因此链接推送速度要均匀,而不是攒一堆推过来,或者复制一堆东西推过来。 现在开始做营销,再晚都算不晚 |