定制搜索引擎定向采集规则及使用

 

点这儿动画演示

目标另存为

第一步:挑选网站
这里做手机方面的资讯,我们可以选择 友人手机宝典频道 http://bible.younet.com

通过搜索引擎进行搜索     site:bible.younet.com

 

第二步:定制搜索引擎定向采集规则

1)创建采集规则名称;
2)输入定位网址,格式:site:域名网址,如: site:bible.younet.com;
3)输入测试网址,在搜索引擎中选择网址,如:http://bible.younet.com/files/2006/10/28/357575.shtml;
4)输入 获取文章内容的 的开始特征标记和结束特征标记;
5)测试抓取到的内容
6)选择各种HTML标签,进行内容过滤;
7)输入过滤字符和替换字符;使用“|”进行字符分隔。

输入“字符”:过滤此字符
输入“字符1*字符2”:过滤掉字符1 到 字符2 间的所有字符,包含字符1和字符2本身
输入“字符1$字符2“:用字符1替换掉字符2
例子:  上海|今天*明天|后天$昨天
过滤掉文章内容中的“上海”的字符,过滤掉“今天” 到 “明天” 之间的字符,把文章中的“后天”字符替换成“昨天字符”

第三步:使用定制的规则进行采集
 

Copyright 2007-2008 Powered By zzxkey 湘ICP备07501478号
猪猪侠seo软件 官方网站