`
freecms1
  • 浏览: 38839 次
文章分类
社区版块
存档分类
最新评论

开源 java CMS - FreeCMS2.6 Web页面信息采集

 
阅读更多

java开源论坛系统http://javabbs.javaz.cn

项目地址:http://www.freeteam.cn/

Web页面信息采集

   从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

添加采集规则

在采集规则列表下方点击"添加"按钮。

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。

 

编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

   提示:同时可以删除多个采集记录。

 

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

分享到:
评论

相关推荐

    开源 免费 java CMS freecms-src-1.5

    增加标签infoRelate,根据信息id查询相关信息。 增加职位管理功能。 增加标签jobList、jobPage、job。 增加标签infoPreList,infoNextList,实现上一条,下一条功能。 增加标签visit,提取访问统计数据。 标签infoList、...

    开源 免费 java CMS freecms-src-1.4

    1.信息添加或编辑后提示是否静态化所属栏目页面、原所属栏目页面、所属栏目父栏目页面、站点首页。 2.栏目编辑成功后,提示是否静态化本栏目页面、本栏目父栏目页面、站点首页。 3.信息删除时删除此信息的静态文件。...

    开源 免费 java CMS FreeCMS 二次开发文档

    开源 免费 java CMS FreeCMS 二次开发文档

    开源 免费 java CMS FreeCMS 1.1

    FreeCMS项目是为了致力于打造更好的中国开源免费CMS而发起的。这个项目的目标是提供一个安全,实用有效和可扩展的CMS系统。 FreeCMS的特点:公开源码、免费使用、代码通俗易懂、注释详细、面向二次开发友好! ...

    开源 免费 java CMS FreeCMS 1.2

    9.增加ajaxLoad标签,通过ajax加载页面。 10.增加模板示例库。 11.增加infoSign标签,显示信息签收代码。 12.增加mailList标签,提取信件列表。 13.增加mailPage标签,分页提取信件列表。 14.增加mailQuery标签,...

    开源 免费 java CMS FreeCMS src 源码1.1

    FreeCMS项目是为了致力于打造更好的中国开源免费CMS而发起的。这个项目的目标是提供一个安全,实用有效和可扩展的CMS系统。 FreeCMS的特点:公开源码、免费使用、代码通俗易懂、注释详细、面向二次开发友好! ...

    开源 免费 java CMS FreeCMS 1.5

    增加标签infoRelate,根据信息id查询相关信息。 增加职位管理功能。 增加标签jobList、jobPage、job。 增加标签infoPreList,infoNextList,实现上一条,下一条功能。 增加标签visit,提取访问统计数据。 标签infoList、...

    开源 免费 java CMS FreeCMS用户手册1.5

    增加标签infoRelate,根据信息id查询相关信息。 增加职位管理功能。 增加标签jobList、jobPage、job。 增加标签infoPreList,infoNextList,实现上一条,下一条功能。 增加标签visit,提取访问统计数据。 标签infoList、...

    开源 免费 java CMS FreeCMS用户手册1.4

    1.信息添加或编辑后提示是否静态化所属栏目页面、原所属栏目页面、所属栏目父栏目页面、站点首页。 2.栏目编辑成功后,提示是否静态化本栏目页面、本栏目父栏目页面、站点首页。 3.信息删除时删除此信息的静态文件。...

    开源 免费 java CMS FreeCMS 1.4

    1.信息添加或编辑后提示是否静态化所属栏目页面、原所属栏目页面、所属栏目父栏目页面、站点首页。 2.栏目编辑成功后,提示是否静态化本栏目页面、本栏目父栏目页面、站点首页。 3.信息删除时删除此信息的静态文件。...

    开源 免费 java CMS FreeCMS 用户手册1.2

    9.增加ajaxLoad标签,通过ajax加载页面。 10.增加模板示例库。 11.增加infoSign标签,显示信息签收代码。 12.增加mailList标签,提取信件列表。 13.增加mailPage标签,分页提取信件列表。 14.增加mailQuery标签,...

    开源 免费 java CMS FreeCMS src 源码1.2

    9.增加ajaxLoad标签,通过ajax加载页面。 10.增加模板示例库。 11.增加infoSign标签,显示信息签收代码。 12.增加mailList标签,提取信件列表。 13.增加mailPage标签,分页提取信件列表。 14.增加mailQuery标签,...

    java新闻系统,freecms

    很全的代码,直接把项目复制进去放到tomcat下就可以运行,请放心下载.

    freecms-1.2

    版本:freecms-1.2;包括三部分:源码、安装包、使用手册

    FreeJms1.3

    freecms-1.3 freecms-src-1.3 FreeCMS用户手册1.3

    Free CMS for your WEBsites:需要网站吗? 正在寻找简单且免费的 CMS?-开源

    免费 CMS - 这是您部署自己的独立网站所需要的。 免费 CMS - 是对那些正在寻找简单、易懂但同时具有功能性的 CMS 的人的问题的答案。 事实上,使用该引擎的技术知识不是必需的,开发人员已尝试使 Free CMS 尽可能...

    FreeCMS1.5

    FreeCMS1.5,免费开源,大家都来研究吧

    基于jsp+jdbc+servlet的个人CMS系统源码+项目说明(课程大作业).zip

    2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 基于jsp+...

    FreeCMSv1.3

    FreeCMS项目是为了致力于打造更好的中国开源免费CMS而发起的。这个项目的目标是提供一个安全,实用有效和可扩展的CMS系统。 FreeCMS的特点:公开源码、免费使用、代码通俗易懂、注释详细、面向二次开发友好! FreeCMS...

    freecms1.4用户手册

    freecsm1.4用户手册,word 版本, 慢慢看吧。

Global site tag (gtag.js) - Google Analytics