我预定了Senparc Google Sitemap“定制服务”,每次都能收到定制服务自动返收集的sitemap和相关报告。但是我的网站实际页面超过500个,收集到的却一直只有300个左右,请问这是怎么回事呢?请问如何才能提高Senparc Google Sitemap收录的数量和效率?
为了提高网页的收录效率(数量和速度),我们给出如下建议,供参考:
1、尽量减少使用页面跳转(尤其是首页的302和304跳转)。
特别不应该出现的是在访问页面的一个过程中连续出现跳转。同时尽量不要让首页就发生跳转。尤其不要在首页或关键页面使用javascript跳转或类似这样的META 304跳转方式:<meta http-equiv="refresh" content="0;url=http://www.senparc.com/home">!
2、提交域名的时候,尽量提交完整的域名。
如:http://www.domain.com。Senparc Google Sitemap的搜索机器人(SenMapic)会自动识别如http://domain.com下的网页。如果您提交的是http://domain.com,SenMapic会认为您只想收录此域名下的页面,从而忽略www下的页面。当然通常情况下,我们更建议您统一的域名。
3、设计合适的浏览深度。
一般情况下,搜索机器人不会无休止地爬行您的网站,所以将网页的深度控制在一定范围内,将更有利于更多的网页被爬行到。我们建议前台最大深度应当在3至5之间。后台的深度一般无需考虑,因为机器人没有权限进入。
4、优化网页代码。
这里说的“网页代码”包括静态的html代码及后台程序代码。
优化代码可以使html代码更加清晰,便于搜索机器人识别,同时更快的响应速度也将有利于机器人收录您的网页。
SenMapic会记录下每一个页面的响应时间(从发送请求开始,到下载网页完毕,不包括图片等其他文件),并计算出本次爬行的“平均页面响应时间”,如果您使用了Senparc Google Sitemap定制服务,您可以在后台看到这些数据。SenMapic可以识别大多数常用编码的网页,但我们还是建议您尽量使用兼容性更好的编码(如UTF-8),同时SenMapic也能有效识别经过GZIP压缩后的网页。无论从机器人收录,提高客户体验的角度,我们都欢迎您这么做。
5、不要为搜索机器人设置障碍。
有些服务器或程序出于安全、负载等因素的考虑,会限制机器人的访问,或限制同一IP在一定时间内的访问次数或频率,这样是非常不利于机器人收录的,因为机器人发送请求的间隔通常远远小于人为的实际操作(对于响应速度很快的服务器,有时候1秒钟内可能会产生好几次请求),并且SenMapic是多线程机器人。
6、及时删除或更新无法访问或异常的网页。
搜索机器人(包括SenMapic)通常具有识别一个网站友好程度及响应速度的能力,当网站内无法访问或发生异常的网页(包括页面不存在、出错、无响应或相应时间过长)达到一定数量之后,可能会影响机器人继续爬行的“兴趣”。
7、不要希望机器人可以爬行到Flash或通过Ajax载入的链接。
许多搜索机器人(包括SenMapic)无法识别Flash中的链接,或在页面在入之后,又通过Ajax等手段异步载入的代码。
8、不要将有搜索价值的内容放在frame框架内(包括iframe)。
藏于frame内的页面,往往会被机器人忽略,尤其当您的首页使用了frame的时候,对收录可能是灾难性的。
9、注意路径网页的规范。
大多数搜索机器人(包括SenMapic)都能够按照网页路径的标准精确查找到网页的实际URL。所以在路径中请务必正确使用相关符号,最主要的如:“/Root.xhtml”“../Root.xhtml”“Root/ABC.xhtml”等,他们具有完全不同的含义。
10、正确设置ContentType等Header中的信息。
ContentType等Header中的信息会对机器人判断网页的类型等信息至关重要,所以设置标准的ContentType信息(如普通网页只需要设置为text/html),有助于网页被更好的收录。
11、使用更标准的HTML格式。
比如当您的网页使用了XHTML规范的时候,应当严格按照XHTML的标准来制作html代码,例如<a>标签中的href,应当用对称的引号包围起来。这样是正确的的:<a href="/Home/">Home</a>,这样是错误的:<a href=/Home/>Home</a>
您的反馈有利于我们提高帮助信息的丰富程度和准确性,感谢您的参与!