要知道在seo优化的过程中,有时有必要筛选搜索引擎蜘蛛,也就是说,禁止在网站上的某个地方爬行,那么我们应该如何筛选搜索引擎蜘蛛呢?让我们来看看具体的操作方法。
百度蜘蛛抓取我们的网站,希望我们的网页能被包含在它的搜索引擎中。将来,当用户搜索时,它会给我们带来一定量的搜索引擎优化流量。当然,我们不想让搜索引擎抓取所有东西。
因此,此时,我们只希望能够抓取搜索引擎搜索到的内容。例如,用户的隐私和背景信息不希望搜索引擎被捕获和包含。有两种最好的方法来解决这些问题。如下所示,
robots协议文件屏蔽百度蜘蛛抓取
robots协议是放置在网站根目录下的协议文件,可通过网站(:3358 www . simcf . cc/robots . txt)访问。当百度蜘蛛抓取我们的网站时,它将首先访问这个文件。因为它告诉蜘蛛哪些能抓到,哪些不能。
robots协议文件的设置相对简单,可以通过三个参数来设置:用户代理、允许、允许。
让我们看看下面的一个例子。事实是,我不想让百度抓取我网站上的所有css文件。数据目录,seo-tag.html页面
用户代理: BaidusppiderDisallow :/*。如上所述,用户代理声明了蜘蛛的名字,这意味着它是针对百度蜘蛛的。无法获得以下内容& quot/* .css"。首先/指根目录,这是您的域名。*是代表任何内容的通配符。这意味着所有文件都以。无法检索css。这是你自己的两次经历。逻辑是一样的。
通过403状态代码限制内容输出,以防止蜘蛛抓取。
403状态代码是http协议中网页的返回状态代码。当搜索引擎遇到403个状态代码时,它知道这些页面受到权限的限制。我无法访问它。例如,如果您需要登录查看内容,搜索引擎本身将无法登录。如果您返回403,他也知道这是一个权限设置页面,不能读取内容。当然,它不会包括在内。
当返回403个状态代码时,应该有一个类似于404页的���面。提示用户或蜘蛛执行他们想要访问的内容。两者都不可或缺。您只有提示页面,状态代码返回200。这是百度蜘蛛的大量重复页面。有403个状态代码,但返回不同的内容。这也不是很友好。
最后,关于机器人协议,我想补充一点:“现在,搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果你阻止css文件和js文件与布局相关联,那么搜索引擎我不知道你的页面布局是好是坏。因此,不建议阻止蜘蛛接触此类内容。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!