推56论坛

 找回密码
 立即注册(限中文)

QQ登录

只需一步,快速开始

    查看: 1086|回复: 0

    [帝国cms教程] 建站教程-帝国cms(ecms)--采集正则

    [复制链接]
    发表于 2015-3-22 00:26:51 | 显示全部楼层 |阅读模式
    大家好,今天的建站教程是:帝国cms的采集正则,帝国CMS教程-正则的正确与否关系到采集的成功与失败,大家可要好好看哦。
    帝国CMS的采集正则
    1、作用:通过设置采集正则以便使系统识别你要采集的内容。
    2、帝国CMS的采集正则是什么样的,下面我们用实例讲解:
    (1)、假如我们要采集页面的内容页为如下页面:
    图1:HTML页面
    图2:查看页面源代码为如下:
    (2)、由上图的源代码内容我们可以得出帝国CMS的采集正则:
    新闻标题正则:
        <td>标题:<strong>[!--title--]</strong></td>
    新闻内容正则:
        <td>内容:<font color="#FF0000">[!--newstext--]</font></td>
    上面中的“[!--title--]”与“[!--newstext--]”分别为“标题”字段与“内容”字段的正则变量。用于指定我们要采集的内容位置。
    (3)、由上面我们得出了,帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式:
    识别代码头部[!--变量名--]识别代码尾部  
    注意事项:上面的“识别代码头部”一定是要唯一的标记。
    3、帝国CMS正则还有表示任意内容的字符:“*”
    如果“识别代码头部”中有内容是变化的,那么我们可以用*代替它。如页面源代码为如下,我们要采集下面的链接地址:
    <a title="任意可变内容" href="链接地址">标题</a>  
    通过使用“*”任意内容表示字符,我们可以用下面的正则忽略可变内容,获得链接地址:
    <a title="*" href="[!--newsurl--]">
    附加说明:[!--newsurl--]为页面链接地址的正则变量。

    4、其它说明:
    (1)、正则要找出唯一性的代码。有时候空格都会成为识别的依据。
    (2)、对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:
    “ )”、“(”、“{”、“}”、“[”、“]”、“\”、“?”等等。
    学建站、学推广、学赚钱,上56站长论坛就够了!个性签名请到个人资料里面修改……

    本版积分规则

    关闭

    推56站长论坛推荐上一条 /2 下一条

    站长QQ
    在线咨询
    咨询热线
    QQ:405327411
    站长

    QQ|广告合作|关于我们|联系我们|免责声明|网站导航|站长论坛 ( 豫ICP备11018337号-5

    王宝臣旗下网站 推56论坛(www.tui56.com|ask.tui56.com|blog.tui56.com|daohang.tui56.com)

    Powered by Discuz! X3.4 Licensed

    ©2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表