点这儿动画演示
目标另存为
采集网站列表网址:
网站:http://www.boraid.com/
网站内容列表:http://www.boraid.com/darticle3/default.asp?page=1&classid=7
第一步:创建采集规则名称 boraid.com行业分析
1)创建采集规则名称
2)输入采集网站的列表网址。
第二步:确定列表页信息
1)输入列表页,并用 {*} 替换列表网址中变化的数字,填写采集列表的起始页。
http://www.boraid.com/darticle3/default.asp?page=1&classid=7
http://www.boraid.com/darticle3/default.asp?page={*}&classid=7
2)找到列表页源文件中的文章链接区域 的开始特征标记和结束特征标记;
3)输入文章链接代码中的特殊 特征字符 ;
<a href="list.asp
第三步:获取列表页中的文章链接
1)输入获取 文章链接网址的 的开始特征标记和结束特征标记;
2)为采集到的文章 相对链接(如果为绝对链接则不需要修改)链接添加头部域名,保证文章链接网址的完整性;
完整的文章页网址为:http://www.boraid.com/darticle3/list.asp?id=91024
第四步:获取文章内容
1)确定得到正确的文章页的网址链接;
2)输入 获取文章标题的 的开始特征标记和结束特征标记;
3)输入 获取文章内容的 的开始特征标记和结束特征标记;
4)输入 获取文章时间的 的开始特征标记和结束特征标记;可选中“使用系统时间选项”;
5)输入 获取文章来源的 的开始特征标记和结束特征标记;可选中“来源”选项,自定义输入;
6)选择各种HTML标签,进行内容过滤;
7)输入过滤字符和替换字符;使用“|”进行字符分隔。
输入“字符”:过滤此字符
输入“字符1*字符2”:过滤掉字符1 到 字符2 间的所有字符,包含字符1和字符2本身
输入“字符1$字符2“:用字符1替换掉字符2
例子: 上海|今天*明天|后天$昨天
过滤掉文章内容中的“上海”的字符,过滤掉“今天” 到 “明天” 之间的字符,把文章中的“后天”字符替换成“昨天字符”
8)输入图片的头部网址
如果是绝对网址,请保持为"0"
如果是相对地址,请填入图片的头部网址
http://
9)预览采集到的内容
|