Google搜寻引擎机制十分的先进,有些认真经营网站的站长为了加速网站被Google检索,会制作一个文件档案像是robots.txt与robots.xml等,专门给Googlebot搜寻机器人用加速检索。
一些人会误以为如果没有制作robots.txt与robots.xml会导致Google放弃检索你的网站,其实只要你的网站有正常提交给Google,即便没有特别制作给机器人看的文件,网站还是会被检索,但是会比较慢被检索。
然而某些特殊情况下,Googlebot检索机器人是无法进行检索的。以下是三种Googlebot进行网站检索时,最有可能出现的问题:
DNS:
DNS无法被找到,或DNS主机拒绝Google检索,就会出现此问题。防火墙:
主机若有防火墙抵挡DDos等攻击时,就有可能会拒绝Google的检索,若你的主机控制权不在你的手上,请与你的主机商询问。刻意排除:
例如在robots.txt添加nofollow与noindex的指令,就会拒绝Googlebot检索你的网站,但这并不保证管用,顺带一提,也有添加nofollow与noindex指令的网站被检索的案例,若要完全禁止Googlebot机器人检索网站,防火墙可以达到更好的效果。
自行检测你的网站是否有异状,可以试着透过https://httpstatus.io/ 检查你的网站的HTTP的状态码是否正常。若是出现错误码但网站仍可以正常运行,可能就是网站受到防火墙保护,阻断了某些查询的请求,一般非系统管理员/主机管理员很难排除这个问题。
Googlebot机器人受阻相关文件(英文)
https://support.google.com/webmasters/answer/2387297?hl=en