1、添加项目:
(1)基本设置
项目名称:起个看一眼就明白的名称,如:IT世界-业界新闻(来自IT世界的业界新闻)。
所属栏目:采集的新闻属于哪个栏目。
所属专题:采集的新闻属于哪个专题。
网站名称:要采集的新闻是哪个网站的。
网站网址:该网站的网址。
网站登录:需要登录才能访问的请设置登录参数(不支持验证码登录)
登录地址:就是它的网址。
提交地址:点击 登录 按钮后用来验证用户名、密码的文件网址,如动力3.62的
是 http://www.****.com/Admin_ChkLogin.asp。
用户(密码)参数:查看登录表单源码,找到形如下面之类的代码
用户名:<input type="text" name="UserName" value="">
密码:<input type="password" name="Password" value="">
用户参数就是--第一行的name=后面的UserName
密码参数就是--第二行的name=后面的Password
最后组合起来就是:用户参数:
密码参数:
PS:上面提到的 提交地址 也在这里找,在附近找到形如--<form name="form1"
post="Admin_ChkLogin.asp">之类的代码,在这个 post=的后面就是提交的地址,
一般它是采用相对地址,请注意。
失败信息:用户名或者密码不正确时,登录后的失败提示信息,用于判断登录是否成功的一个标志,请一定要填写,否则不能采集,比
如:您输入的用户名或密码不正确,请重新输入!
项目备注:该项目的其它要记录的信息,比如--IT世界的新闻好好哦,以后每天都要采它~
(2)列表设置
列表:
书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。
列表索引页面:
你要开始采集的列表页。
列表开始/结束标记:
平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。 比如这是某一列表页面的主要部分代码: <table width="98%" border="0" cellspacing="0" cellpadding="3"> <tr> <td align="left" valign="top"><br> <a href="News.asp?id=1" target=_blank>新闻标题</a><br> <a href="News.asp?id=2" target=_blank>新闻标题</a><br> ....省略 <a href="News.asp?id=50" target=_blank>新闻标题</a> </td> </tr> </table> 红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。
列表索引分页:
(1)设置标签 列表索引页的部分代码如下: <td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><a href="index_2.html">下一页</a> <a href="index_4.html">尾页</a> </td> 红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF="和">2</A>,这就错了,怎么错了自己想想。
索引分页重定向:参考链接设置
(2)批量生成 如有些列表是这种形式: 第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html 第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html 第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html
那么可以这设置:{$ID}是必须的
原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html
生成范围:1--3
结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html
http://www.it.com.cn/news/cyxw/yejie/index_2.html
http://www.it.com.cn/news/cyxw/yejie/index_3.html
这样的几个列表页面
(3)手动添加
输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。
(3)链接设置
链接开始/结束标记:
这里没设置好采集过程中可能会路途停止
部分代码
<table width="98%" border="0" cellspacing="0" cellpadding="3"> <tr> <td align="left" valign="top"><br> <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a> <a href="List.asp?type=Pc新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a> ....省略 <a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a> </td> </tr> </table> 红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。
链接的重新定位:
如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:
<a href="Javascript:window.open('1')" target=_blank>新闻标题</a><br> <a href="Javascript:window.open('5')" target=_blank>新闻标题</a><br> ....省略 <a href="Javascript:window.open('50')" target=_blank>新闻标题</a>
把开始/结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,http://www.scuta.net/news.asp?id=1,那么绝对链接就设置为http://www.scuta.net/news.asp?id={$ID}就成了。
(4)正文设置
标题、正文、作者、来源、关键字及正文分页设置同上,不想重复,这里就不说了。
(5)采样测试
正确采样后完成添加操作。
|