---------------------------------------------------------------
采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。
采集项目管理
单击左侧管理导航的“采集管理”,出现采集的管理项目:
·文章采集:用于采集设置好的采集项目。
·项目管理:用于建立、管理和复制采集项目。
·过滤管理:用于过滤采集中的标题和正文的字符。
·历史记录:已采集的记录历史,避免重复采集。
·导入|导出:用于共享迁移采集项目。
文章采集
单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:
参数说明:
·选择:选择您要采集的项目,可多选用于批量采集操作。
·状态:如果采集项目没有通过审核,则选择框的颜色为灰暗并不可选,其状态栏显示×。您要必须在“项目管理中”连续通过“采样测试”->“设置属性”这两步,才能通过审核。通过审核的采集项目状态栏显示√。
·上次采集:显示最新的采集日期。
黑色:表示上一次采集的时间。如:2005-5-8 14:45:44。
红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。
·采集模式:提供“稳定采集”和“快速采集”两种模式。
->稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。
->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。
·历史记录:采集项目具有采集统计功能,显示该项目采集r 成功数和失败数,点击成功失败可看到具体的历史记录信息,并提供采集统计功能。
·采集选项:提供“测试采集”和“正文预览”两项,分别是来测试建立项目成功后是否有效。
·每页项目数:您可以下拉选择每页显示的页数,用于批量采集,比如一次采集20个项目或更多。
·开始采集:勾选了相应采集项目前的选择框,再单击本功能按钮,系统开始进行项目采集与测试。
项目管理
单击后台左侧管理导航的“采集管理”->“项目管理”,出现“采集系统项目管理”界面:
参数说明:
·管理导航:系统提供采集管理导航操作。
->管理首页:链接到采集系统项目管理首页。
->添加新项目:单击本功能链接添加新的采集项目。
·“操作”列功能链接说明:
->编辑:修改你指定的采集项目。
->测试:测试你的采集项目是否,正确,如果显示采集的正文页证明成功,否则会提示您第几步错误。
->属性:设置你采集到的文章,放在那个频道中,那个栏目中,相对应的属性设置。
->复制:如果所采集网站的模板相同,可利用本功能复制多个项目,以提高采集效率。
如果导入采集项目后,就需要审核,是否是正确的采集项目,您必须点要审核项目的,
!采集项目只有通过测试和属性这连续两项后方可通过审核。测试:保证采集项目正确;属性:制定采集后的储存位置。
·操作按钮:系统提供将已选定的项目“删除”或“批量设置”二个操作按钮。
->删除:选择您要删除的采集项目(可多选),选择后单击“删除”按钮即可删除选定的采集项目。
->批量设置:选择您要删除的采集项目(可多选),选择后单击“删除”按钮,则可批量修改项目的属性。
具体项目属性设置请参阅后章“项目管理”的“属性设置”。
采集的步骤
下面请认真阅读采集步骤说明,建立您要采集的项目。单击顶部的“添加新项目”功能链接,开始添加新的采集项目。
基本设置
“添加新项目--基本设置”的界面参数说明:
·管理导航:如果是编辑项目,可任意点击所属的项目链接。
·添加项目名称:填写自定义项目名称。
·网站名称:填写自定义网站名称。
·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。
·网页编码格式:提供GB2312、UTF-8和Big5二种编码格式。国内的网站都是GB2312 默认选项可不选,如果要采集海外网站就要用 UTF-8。
·网站登录:选择不需要登录或设置参数(如果网站需要登录后才能浏览信息刚要选择此选项)
设置参数中填写登录地址、提交地址、用户参数和密码参数。
·项目备注:填写自定义备注信息。
->填写好相关参数后,单击“下一步”按钮,进行采集列表项目信息设置。
列表设置
本步骤界面中,将显示基本设置中填写的采集目标新闻列表页的信息,并设置采集的列表的相关代码:
->采集目标网页:显示采集目标列表网页预览效果。
->采集目标源码:可以设置是否查看列表网页的源码。
->列表设置:设置详细的列表采集信息。
·列表的开始代码和列表的结束代码:填写上部采集目标源码框中显示的采集列表代码的开始和结束的代码。请尽量用较少的代码(如一行内的代码),以保证代码的准确性。
!填写的代码必须保证是当前列表页唯一的,可单击右侧的“测试代码”按钮是测试填写的代码否唯一。
·列表索引分页:如果列表网页中有象“上一页”、“下一页”这样的分页,则要设置索引分页。
->不作设置。注:当前采集的列表页不分页。
->设置标签。若采集的列表分页中有“下一页”和“上一页”的分页内容,则要获取分页开始与结尾的代码。
>>下页开始和结束标记:填写下一页开始和结束标记代码。
例:“共 82 篇新闻 首页 上一页 下一页 尾页”,这是某列表页的分页链接。
1.首先我们就要得到“下一页”的链接URL。
例:以下是网页中的“下一页”的URL代码 以下是引用片段:
“〈a href=’/news/List/List_2_2.html’〉下一页〈/a〉”,
那么我们就要得到:下页开始标记 以下是引用片段:
“〈a href=’”,下页结束标记“’〉下一页〈/a〉”。
!请注意:开始和结束标记再加上中间采集到的代码,正好是一个完整的网络URL地址,这就是我们要设置的。
2.要正确的得到下一页URL地址关键是/news/List/List_2_2.html(如果是相对路径也不用担心,系统会自动转换为绝对路径),您还要单击右侧“测试”按钮以确认唯一性。
!因为下一页代码少,所以不可能全部唯一,但只要有一处代码为唯一就可以了。
>>索引分页重定向:系统能智能分析网站的相对路径,如果特殊情况分析不对,请按上述步骤使用此功能。一般不会用到,如果采集分页很纵深,并且下一页代码是相对路径。在下一步链接设置分析到的下一页列表的URL和实际不符,应用此功能。在列表设置捕获相对路径,如果是动态页捕获ID。
例:在索引分页中填写实际路径 http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕获的相对路径或动态ID。
->批量生成:如果分页的代码都是数字,就可用批量生成自动控制分页。
>>原字符串:例:http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html,即有数字规律,则可在原字符串中这样填写:
“http://www.xxxxx.com/news/index_{$ID}.html”
其中{$ID}代表分页数。
>>生成范围:可写1-10或10-1,意思是采集1到10页或10到1页倒序采集。
->手工添加:
如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL。
!注:一行一个分页Url地址。事实证明这种效率并不高,为无奈之举,因为无头绪的分页中列表分页也未必是有头绪的。
·分析代码(辅助功能)
在采集页面时,代码框中会显示非常多的代码,令人头晕眼化。小巧的分析代码功能虽不是很强但在一定程度上辅助您快速找到你需求的代码。
使用:
寻找列表页头部代码:在最上面的视图中,复制列表第一标题的头部字符。然后粘贴到“分析网页字符”框中,选择向前代码、字符300,并单击“分析”按钮执行分析。这样就得到了以列表第一标题为开始以上的300字符,包括列表开头代码在内。同理在列表尾部标题粘贴,选择向后代码并进行分析,则可很快找到列表尾部代码。
本功能可用于列表头、列表尾、下一页、标题(选择前后代码)、正文等等。
!注:您复制的视图代码要求代码的唯一性,如果不是唯一就用不了分析。一般列表标题、正文没有重复。
!小技巧:在正文页,正文的开头是没有重复代码的。复制正文页的开头几个字符到分析代码,选择向前,字符数设大些如1000并执行,结果就很好找了。标题、来源、时间、作者和正文的开头都在这里。
->填写好相关参数后,单击“下一步”按钮进行采集链接设置。
链接设置
本步骤界面中,将显示列表设置中目标新闻列表页中采集的信息,并设置相关链接信息:
->采集列表:显示目标列表网页中采集内容的预览效果。
->采集目标源码:可以设置是否查看列表网页的源码。
->链接设置:设置所采集页面中的链接信息。
·链接开始代码和结束代码:填写获得链接的代码。
如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。
->使用例举1:
一个新闻标题的代码为
以下是引用片段:
“〈td class=’listbg’〉〈a class=’listA’ href=’/Help/Admin/others/394.html’ title=’文章标题:如何去掉图片随鼠标而放大或缩小的功能 作者:壮志 更新时间:2005-5-13 20:04:23’ target=’_self’〉如何去掉图片随鼠标而放大或缩小的功能〈/a〉〈img src=’/images/new.gif’ alt=’最新文章’〉〈/td〉”
则链接开始代码和链接结束代码填写的信息为:
链接开始代码 以下是引用片段:
“〈a class=’listA’ href=’”
链接结束代码 以下是引用片段:
“’ title=’”
->使用例举2:
一个新闻标题的代码为 以下是引用片段:
〈td valign="top"〉〈a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank"〉汉堡大师赛冷门迭爆 阿加西不敌非种子选手出局〈/a〉〈span class="ty6"〉(05/11)〈/span〉〈/td〉
则链接开始代码和链接结束代码填写的信息为:
链接开始代码 以下是引用片段:
“〈a href="”
链接结束代码 以下是引用片段:
“" class="ty5" target="_blank"〉”
这时获得的字符正好为可运行的链接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在这里,如何获得有效的链接是关键。
->单击“下一步”按钮对采集的文章进行进行属性设置。
属性设置
本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。
参数说明:
·项目名称:可重新修改采集的项目名称。
·所属频道、所属栏目、所属栏目、文章阅读点数、文章属性等项目的设置请参阅文章功能频道相应的说明进行设置。
·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。
·过滤选项:过滤采集正文页中的html字符。
IFRAME:过滤内联。
Object:过滤Falsh和控件。
Script:过滤js、vbs等脚本。
Class:过滤类。
Div:过滤层。
Span:过滤。
Table、Tr、Td:过滤表格属性。
Img:过滤图片。
FONT:过滤字体定义。
A:过滤链接,可防止用户点击链接为其它网址。
Html:过滤。
·采集数量:采集指定文章数或采集列表页数。如果为空由代表采集所有文章或列表。
·采集属性:或选择是否保存图片、是否对图片增加水印、倒序采集和立即发布选项。
!如果您要启用立即发布,发布后要记得生成相应的JS文件。
->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。
采集信息操作
在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。
1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:
2.在选择相应项目后,单击“开始采集”按钮开始采集信息。
!在采集前,您可以先勾选“测试采集”和“正文预览”两项,以测试建立的采集项目采集信息是否有效。
3.系统出现信息采集过程界面
在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。
每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:
系统信息采集完成后,出现成功采集的提示信息:
系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。
4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“立即发布”,您要审核后采集的信息才能显示在前台。
--------------------------------------------------
如果有不明白的地方直接QQ和我联系:wufengluo@vip.qq.com
请给分,谢谢!
最好找到install.asp文件来重新装一下,在网上找一个cms6。6的程序只要把里面的这个文件上传到新服务器上安装一下应该可以解决这问题,我没有过你这样的问题,我改路径后是页面的图片全不能显示了,也就是程序找不到模板文件夹数据库。 SKIN下的模板文件。IMAGES下的 LOGO等个别重要的图片。
AD下的广告图片。
各频道下的 图片上传文件夹。
别的特殊功能文件,这要根据不同网站来看了,有的一个没有,有的就有很多。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)