从周围使用MT朋友的经验来看:针对MT系统的搜索引擎SPAM已经成为越来越严重的问题,很多利用MT这样对用户留言比较开放的CMS系统进行的SPAM程序:自动探测MT发布系统的留言入口,发布垃圾信息,目的就是为了通过当前BLOG发布页面中的评论作者主页链接获得到自己网站的反相链接,引导Googlebot的抓取,从而获得更高的PageRank。
本文主要设想利用搜索引擎的robots.txt标准:通过MT系统主动告知搜索引擎蜘蛛直接对话:告诉那些内容是经过当前BLOG发布者完全控制的,那些是可能不受到发布者控制的。
防止针对Movable Type的comments和backtrack ping SPAM
MT提供的anti spam插件:MT-Blacklist - A Movable Type Anti-spam Plugin。但是其实腰解决MT的comments和backtrack ping SPAM问题除了通过黑名单BLOCK外,另外一个重要方面在于让spammer无法达到获得反相静态链接从而达到它们spam googlebot获得pagerank的目的。MT的anti spam插件:MT-Blacklist - A Movable Type Anti-spam Plugin。实解决MT的comments 和backtrack ping SPAM问题除了通过黑名单BLOCK外,另外一个方面在于让spammer无法达到获得反相静态链接从而达到它们spam googlebot获得pagerank的目的。其实在Movable Type 2.661中首先已经把评论和TRACK BACK链接全部改为动态链接,而不是直接指向留言者主页的静态链接:/path/to/mt/mt-tb.cgi?__mode=view&entry_id=520然后只要告诉搜索引擎的crawler不要抓取这些动态页面,让那些spammer发好了:反正它们的网站是不会直接从我的网站上得到直接的静态反相链接了,SPAMMER从中一点好处也得不到,也省得blogger经常收到通知就需要马上去删那些MT spam。具体做法:
1 使用MT 2.661以上版本重新发布BLOG,保证所有评论和backtrack ping链接到统一的动态地址上;2 在MT管理目录的根目录下创建robots.txt,对这些动态网页禁爬:User-agent: *Disallow: /path/to/mt/补充:如果评论中的auto url或允许HTML代码的话,那么内容中的SPAM还是不能防止的。
关于搜索引擎robots的禁爬:另外一个方法是通过网页中的meta tag:
<meta name="robots" content="noindex,nofollow">
应该建议MT可以通过配置在mt-comments.cgi mt-tb.cgi中加入相应的header。
做为网站发布者本身应该有这样的责任感:没有禁爬设置的MT就像不需要认证的SMTP的一样,也许对于自身没有什么影响,但是如果无意中成为转发垃圾邮件的工具就是在助纣为虐了。MT spam的确会使得blog成为搜索引擎spam的帮凶,这一问题应该被重视起来。