您的位置:
首页 >> 帮助 >> 高级教程 >> 浏览文章
售后联系QQ:25014998 联系QQ:1007153526
QQ群:62660420 24741759 79010434 33855915(500人)
邮箱:Art2008_cms@163.com

采集系统使用帮助

来源:hj0120 | 作者:管理员 | 发布时间:2010-02-01 | 访问数:

 

Art2008CMS采 集 系 统 使 用 帮 助

1、文章属性:

立即发布:不需要审核,即可通过前台直接访问。

包含图片:选中的话,如果采集的新闻正文中有图片,则会在标题前面显示[图文],默认选中。

首页图片:选中的话,如果采集的新闻正文中有图片,则会将检索到的第一张图片设为本新闻的首页图片,默认选中。

其它选项:略........

2、标签过滤选项:

这里是常见的要过滤的html标签。

广告过滤:如果没有选择,那么过滤设置中的过滤将不起作用,下一版中将去掉。

IFRAME:如--<IFRAME SRC="广告地址">,比较常见的广告代码。

OBJECT:如--<Object 代码>代码</Object>,注意--有些正文中有Flash动画、又有这个广告代码,此时推荐使用过滤功能。

SCRIPT :如--<SCRIPT LANGUAGE="JavaScript1.1" SRC="广告地址"></SCRIPT>,常见的广告代码。

FONT    :如--<font style="font-size:12px;line-height:150%;">,常用于去掉文字的大小、颜色等属性。

A          :如--<a href="http://pic.scuta.net">查看更多图片</a>,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。

3、采集选项:

保存文件:选中的话,如正文中有图片则会将图片保存到服务器上。

倒序采集:从最下面一条新闻开始向上采集,新闻一般都是最早发布的在下面,最新发布的在上面。

测试采集:只作测试,采集的结果不录入数据库,也不会产生历史记录。

正文预览:在采集过程中可预览正文,如果是入库采集则只显示前200个字符,有图片时可能会造成图片无法显示。

二、使用指南-----项目管理

1、添加项目:

1)基本设置

        项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。

        所属栏目:采集的新闻属于哪个栏目。          

        所属专题:采集的新闻属于哪个专题。

        网站名称:要采集的新闻是哪个网站的。

        网站网址:该网站的网址。

        网站登录:需要登录才能访问的请设置登录参数(不支持验证码登录)

        登录地址:就是它的网址。

        提交地址:点击 登录 按钮后用来验证用户名、密码的文件网址,如动力3.62

                       http://www.****.com/Admin_ChkLogin.asp

        用户(密码)参数:查看登录表单源码,找到形如下面之类的代码

                      用户名:<input type="text" name="UserName" value="">

                      密码:<input type="password" name="Password" value="">

                      用户参数就是--第一行的name=后面的UserName

                      密码参数就是--第二行的name=后面的Password

                      最后组合起来就是:用户参数:

                                                 密码参数:

        PS:上面提到的 提交地址 也在这里找,在附近找到形如--<form name="form1"

                      post="Admin_ChkLogin.asp">之类的代码,在这个 post=的后面就是提交的地址,

                      一般它是采用相对地址,请注意。

        失败信息:用户名或者密码不正确时,登录后的失败提示信息,用于判断登录是否成功的一个标志,请一定要填写,否则不能采集,比

                      如:您输入的用户名或密码不正确,请重新输入!

        项目备注:该项目的其它要记录的信息,比如--IT世界的新闻好好哦,以后每天都要采它~

2)列表设置

        列表:

               书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。

        列表索引页面:

               你要开始采集的列表页。

        列表开始/结束标记:

               平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。
              
比如这是某一列表页面的主要部分代码:
               
<table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr>
                       <td align="left" valign="top"><br>

                           <a href="News.asp?id=1" target=_blank>
新闻标题</a><br>
                           <a href="News.asp?id=2" target=_blank>
新闻标题</a><br>
                           ....
省略
                           <a href="News.asp?id=50" target=_blank>
新闻标题</a>
                      
</td>
                 </tr>
              </table>

     红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。

        列表索引分页:

   (1)设置标签
       
列表索引页的部分代码如下:
      <td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A>
<a href="index_2.html">下一页</a>
<a href="index_4.html">
尾页</a> </td>
       
红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF="">2</A>,这就错了,怎么错了自己想想。

   索引分页重定向:参考链接设置

        (2)批量生成
   如有些列表是这种形式:
   第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html
   第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html
   第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html

   那么可以这设置:{$ID}是必须的

   原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

   生成范围:1--3

   结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

   http://www.it.com.cn/news/cyxw/yejie/index_2.html

   http://www.it.com.cn/news/cyxw/yejie/index_3.html

   这样的几个列表页面

   (3)手动添加

   输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。

3)链接设置

   链接开始/结束标记:

   这里没设置好采集过程中可能会路途停止

   部分代码

                <table width="98%" border="0" cellspacing="0" cellpadding="3">
                  <tr>
                       <td align="left" valign="top"><br>
                           <a href="List.asp?type=IT
新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a>
                           <a href="List.asp?type=Pc
新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a>
                           ....
省略
                           <a href="List.asp?type=IT
新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a>
                       </td>
                 </tr>
              </table>
   红色部分为链接开始/结束标记,
注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。

   链接的重新定位:

   如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:

          <a href="Javascript:window.open('1')" target=_blank>新闻标题</a><br>
          <a href="Javascript:window.open('5')" target=_blank>
新闻标题</a><br>
          ....
省略
          <a href="Javascript:window.open('50')" target=_blank>
新闻标题</a>

   把开始/结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,http://www.scuta.net/news.asp?id=1,那么绝对链接就设置为http://www.scuta.net/news.asp?id={$ID}就成了

4)正文设置

   标题、正文、作者、来源、关键字及正文分页设置同上,不想重复,这里就不说了。

5)采样测试

   正确采样后完成添加操作。   

   

三、使用指南-----过滤设置

   过滤有简单替换和高级过滤(相对简单替换)

1)简单替换

   把一段字符替换为另一段字符,比如

   想把所有的 () 字符替换为 空

   内容:()

   替换:留空

2)高级过滤

      比如正文中有这样的代码:

   <iframe src="http://www.17173.com/if/top-new1.html" name="contentFRM" id="contentFRM" scrolling="no" width="326" height="350" marginwidth="0" marginheight="0" frameborder="0" align="left"></iframe>

   大家都知道这应该是广告代码吧,想把它过滤掉不要它了,可以这样:

   开始标记:<iframe

   结束标记:</iframe>   

   注:像这种代码也可以使用 过滤选项 中的 IFRAME选项 ,如果代码复杂还是推荐使用上面的这各方法。

四、使用指南-----历史记录

      历史记录,记录的是所采集过的新闻网址,保留着该新闻的采集状态,也是判断一条新闻是否重复采集的重要依据。

      成功记录:成功采集并保存到动易的数据库中。

      失败记录:采集失败,但动易数据库中没有相关新闻。

      失效记录:动易的数据库中已删除该新闻(不包括失败记录)

0% (0)
0% (0)

没有相关信息