简体中文
1、自查robots.txt文件
首先, 开发者们先查看robots.txt文件,是否存在封禁记录。一般robots.txt文件放置在网站根目录下~
2、自查是否封禁百度UA
可以进一步排查是否存在封禁百度UA情况。
(1)执行代码进行自查
执行以下命令进行排查:
curl--head--user-agent'Mozilla/5.0 (compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)'--request GET 'xxxxxxx'
xxxxxxx为网站域名,如:http://www.abc.com
注意:如果站点正常,不存在封禁百度UA的情况,则其返回码是200,如出现其他返回码为异常。
(2)变更浏览器进行UA验证
通过观察站点资源在其他浏览器是否得到正常的抓取和收录,来判断网站是否有封禁百度UA的情况。
可以查看网站反爬虫策略,进行策略调整,解除百度UA封禁;或者针对百度UA添加策略白名单。
3、自查是否存在IP封禁
如果以上验证均无异常,开发者们则可以排查是否存在IP封禁的情况。
常见的IP封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的IP级别封禁措施。
可以查看网站反爬虫策略,进行策略调整,解除百度IP封禁。
相关阅读20条
增值电信业务经营许可证:苏B2-20170066 在线数据处理与交易许可证:苏B2-20170066苏公网安备 32010502010137号
Copyright © 2016-现在 中介网 zhongjie.com All rights reserved 南京众杰网络科技有限公司 版权所有 苏ICP备16043105号-1