dedecms采集基础教程 dedecms采集视频教程
对于大多数网站来说,现在广告是网站收入的一个重要来源,因此在网页中常会嵌入广告代码。我们在采集的时候,如何将其过滤掉,从而避免了自己帮别人免费挂广告呢?又例如某些文章里面某些关键词有了他们自己网站上的其他文章链接,你是否愿意让你辛苦采集回来的文章里包含了他的链接?这一切,只需简单的过滤规则,即可给你一篇干净的文章。
dede的过滤规则并不难写,其写法如下面
{dede:trim}这里就是要过滤的内容{/dede:trim}
如果你要过滤的内容比较简单的代码,完全可以直接在“{dede:trim}”和“{/dede:trim}”之间写上,如果比较复杂的就要用到正则了。
1、例如采集中去除内容里的超链接的规则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
假如要将所有超链接内容都去除,规则是:{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
这两个规则的不同通过下面代码来解释
例如文章代码中包含着如下内容:<a href="#">超链接</a>
通过第一个规则,我们采集来的结果是:超链接
通过第二个规则,我们采集来的结果是:空白,即是将所有内容都过滤掉了。
2、过滤广告
对于广告来说,过滤规则就得针对html中看到的内容使用规则了,例如某些广告仅仅是引用某个JS文件,例如
<script src=’/plus/ad_js.php?aid=4′ language=’javascript’></script>
这样的规则只需
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
如果某些广告的内容是JS代码写在<script></script>区间里的,例如GG的广告,那么过滤规则应该是:
{dede:trim}<script>(.*)</script>{/dede:trim}
3、下面是一些常识用的过滤规则
{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<option([^>]*)>([^>]*)</option>{/dede:trim}
{dede:trim}<select([^>]*)>{/dede:trim}
{dede:trim}</select>{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<script>(.*)</script>{/dede:trim}
{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}
———————————–
对于下面这些规则就请慎用
———————————–
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}
{dede:trim}<div(.*)>(.*)</div>{/dede:trim}
{dede:trim}<center(.*)>{/dede:trim}
{dede:trim}</center>{/dede:trim}
{dede:trim}<p(.*)>{/dede:trim}
{dede:trim}</p>{/dede:trim}
{dede:trim}<span(.*)>{dede:trim}
{dede:trim}</span>{dede:trim}
{dede:trim}<img(.*)>{/dede:trim}
{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
以上就是本篇要介绍的内容,正则也许并不是每处都用得上,但当你了解其写法后,自己也可以写出一些更加适合自己使用的规则出来。
这些都是非常使用又非常容易理解的过滤规则,如果你想让你的收集更加简便,更加人性化.这些就要掌握好喔.
更多阅读
五线谱基础教程,五线谱怎么看 五线谱基础教程
五线谱基础教程,五线谱怎么看——简介 目前世界上通用的记谱法。在5根等距离的平行横线上,标以不同时值的音符及其他记号来记载音乐的一种方法。 五线谱的每根线以及线与线之间的空间,自下而上分别称为第1线、第2线、第3线、第4
delphi基础教程 delphi编程入门
delphi基础教程——简介Delphi,是Windows平台下著名的快速应用程序开发工具(Rapid Application Development,简称RAD)。它的前身,即是DOS时代盛行一时的“BorlandTurbo Pascal”,最早的版本由美国Borland(宝兰)公司于1995年开发。主创者为
五线谱入门基础教程 五线谱快速记忆法
五线谱入门基础教程——简介五线谱是记录音乐的一种语言,是一种记谱方法。五线谱,顾名思义是由五条平行线组成的,当然还包括每相邻两条平行线之间的“间”。五条线的顺序是由下往上数的。最下面第一条线叫做“第一线”,往上数第二条线
《FABER钢琴基础教程》——生动有趣的钢琴启蒙教材 钢琴启蒙
美国钢琴家和儿童心理学家颠覆学琴概念———— 谁是兰德尔·菲伯尔?他是美国一位钢琴演奏家和儿童心理学家,最近人民音乐出版社引进了他的作品《菲伯尔钢琴基础教程》,这部教程在去年全美钢琴启蒙教材类图书中获得销量冠军,至
模型制作基础教程-航模-遥控飞机-遥控直升机-遥控模型 遥控航模飞机制作
模型制作基础教程2008-06-14 16:27:08 来源: 作者: 【大 中 小】 评论:3 条第一章 制作工具的准备做为一个新入门的模型爱好者,首先遇到的问题就是:做模型需要一些什么工具呢?什么工具是即省钱又好用的呢?在这里我想谈一下自己的经验,希望