为什么要屏蔽蜘蛛抓取网站内容,解密一些不为人知的秘密

  • A+
所属分类:每日一谈

Seoer都知道,定期对网站进行系统维护是提高蜘蛛扒取和收录是非常有必要的,但是有些具体内容反而是不宜蜘蛛提取的,这时我们就必须对一些具体内容进行屏蔽掉,下面我们就大家一起来认识一下,普遍的屏蔽内容都有那些吧。

seo网站优化需要屏蔽蜘蛛抓取哪些内容

一、图片目录的屏蔽

图片是组成网站组成的首要元素,显然主题模板中类似的图片在百度搜索引擎中数不胜数,百度搜索引擎一遍遍的索引下来还会进行收录吗?就算收录了,所带的实际效果也是凤毛麟角的。一个不错的网站,每天各种各样的蜘蛛加起来来访不下几千次,毫无疑问是浪费了过多的带宽。一般来说我们常屏蔽的目录为“images、images”。

二、缓存目录的屏蔽

许多程序都具有缓存文件目录,拿z-blog这个程序来举个例子,它的缓存目录为“CACHE”,至少会有着不少已经生成HTML的缓存文件。只要蜘蛛继续进行数据库索引的话,不容置疑是导致了重复内容的索引,这对网站是有害无益的。看到许多使用Z-blog的朋友都没有进行设置,可能是没有引起足够的看重吧。理所当然,别的程序还有这各自不同的缓存目录,针对性的进行屏蔽才为适宜。

为什么要屏蔽蜘蛛抓取网站内容,解密一些不为人知的秘密

三、模板目录的屏蔽

针对程序的模板,大多站长都选择了直接套入而非单独模板。模板的高度重复性也成为了一个搜索引擎中信息内容的数据冗余,因此充分利用robots.txt来开展模板的屏蔽也是有益无害的。且模板文件常常与生成文件高度相似,一样易导致类同内容的出现。

四、CSS目录的屏蔽

css样式文件目录,百度搜索引擎抓取不必要,因此我们在设定Robots.txt文件格式中将其做好屏蔽,以提高搜索引擎的数据库索引质量。为百度搜索引擎提供一个简单明了的索引环境更易提升网站友好性。
五:部分程序的RSS页

此条只对于具有RSS页的程序而言,通常博客中较为普遍。此页面可以说是一个高度重复的页面,完全有必要做好屏蔽,以增强网站在搜索引擎中的友好性。

六、屏蔽双页面的内容

一个可以生成静态网页的网站,通常情况下动态页面也是还可以访问的。两者若被搜索引擎完全索引,毫无疑问是访问到了完全一致的内容,对搜索引擎友好性而言是有害无益的。而我们屏蔽的往往都是后者,因为前者页面为静态,更易被搜索引擎索引收录。(如何将wordpress的URL静态化

七、涉及程序安全页

在启始位置我们交代了屏蔽ADMIN、DATA目录,避免安全文件目录与网站数据库泄漏。另外数据库目录、网站日志目录、备份文件目录都是须要进行屏蔽的,都是可以有效减少“泄密事件”现象的发生。汽车检测设备

八、屏蔽文件形式

一些站长总是喜欢将网站备份后方到网站下载后忘记删除,或者根本不做下载,直接保留到服务器。但是大家都知道,网站发展壮大必定受到一些人的窥视,网站一次次的被尝试下在数据库、备份文件,稍微有点名次的网站都会受到类似的攻击。利用robots.txt屏蔽类似“rar、zip”等类似的文件。

佛山小俊seo

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: