本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;特征训练提取模块通过计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。有效的解决目前网络信息杂乱的现象,方便用户准确地查找定位所需的信息。
1.一种基于网站内容用于网站自动分类分析的系统,其特征在于,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类;所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。
2.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。
3.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词重要度的方法为:
其中,C
s为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(C
s)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。
4.如权利要求3所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词区分度的方法为:
其中,C为网站类别集合,p(C
i)表示网站类别C
i的概率,p(C
i|t)表示特征词t在类别C
i中出现的概率,m表示网站类别的个数。
5.如权利要求4所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述特征训练提取模块中计算候选特征词权值的方法为:w(t,i)=TF(t,i)×E(t,i)×IG(C,t
i)其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,t
i)表示特征词的区分度值。
6.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:(2.1)计算待分类站点关键词权值:定义一个标记集合SS={TITLE,me
ta KEYWORDS,me
ta DEs
criptION,A1,A2,H1,H2,H3,B,I,U}其中,A1为一级出链,A2为二级出链,设对应的权值集合为W
a={W
a|a∈S}其中W
a标记对应a的权重,并且满足W
TITLE>W
meta KEYWORDS>W
meta DESCTRIPTION>···>w
U则对于关键词t
i其在网页文本i中的权重定义为
其中,W(t,i)表示关键词t在网页文本i中的权重,F
i表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DF
i表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:特征空间向量与待分类站点的特征空间向量相似度为:
其中,W
1k、W
2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。
7.如权利要求1所述的一种基于网站内容用于网站自动分类分析的系统,其特征在于,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。
技术领域本发明属于数据挖掘及机器学习领域,涉及一种基于网站内容用于网站自动分类分析的系统。
背景技术20世纪90年代以来,互联网以惊人的速度发展了起来,容纳了海量的各种类型的原始信息,包括网页、文本、图像、多媒体等,如何在浩瀚如烟的海量信息中掌握有效的信息始终是信息处理的主要目标之一。网站分类可有效的改善Web信息的查准率,以雅虎、搜狐等为代表的分类目录式搜索引擎采用的是人工分类方法,这种方法效率低、更新速度慢、维护成本高,很难实现对互联网上动态变化的海量网站进行有效的跟踪和管理。
发明内容发明目的:本发明的目的是针对现有技术的不足而提供一种基于网站内容用于网站自动分类分析的系统,有效的解决目前网络信息杂乱的现象,方便用户准确地定位所需的信息,不仅可以将网络文本按照类别信息分别建立相应的管理数据库,提高中文搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。技术方案:为了实现发明目的,本发明公开了一种基于网站内容用于网站自动分类分析的系统,包括抓取模块、网页文本内容解析模块、分词模块、特征训练提取模块以及网页分类模块;抓取模块用于对网站关键资源相关内容的抓取;网页文本内容解析模块用于对网页不同标签进行分块并且对各个标签块的内容进行分析及去噪处理得到分块网页文本集;分词模块用于对不同分块网页文本集进行分词处理,并计算得到候选特征词及其出现频率和词性;特征训练提取模块用于计算每个候选特征词的重要度、区分度和特征关键词权重,并根据特征关键词权重来排序选取权重最大的若干特征词,对选取的特征词进行归一化处理后,使用特征词权重作为权值,根据已知选取特征词集合及权重集合建立网站类别向量模板;网页分类模块用于根据特征训练提取模块得到的选取特征词集合及权值形成特征空间向量,再计算特征空间向量与待分类站点的特征空间向量相似度来确定站点所属类别。作为优选,为了适应各种标签标记对页面主题产生的作用不同,所述网页文本内容解析模块将网页不同标签分为标题块、元数据描述块、超链接块、H块及P块。作为优选,为了更好地实现发明目的,所述分词模块的分词处理包括设置停用词过滤、设置分词权值、词语字典管理、中文词性输出、中文未登录词识别及繁体中文分词。作为优选,为了考虑到网站分类中某一类别内,若某一个特征词分布越均匀,则该词越能代表该类,特征词应该赋予较高的权重,所述特征训练提取模块中计算候选特征词重要度的方法为:
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>其中,C
s为标记块集合,F(i)表示特征词t在标记块i中出现的次数,F(C
s)表示特征词t在所有标记块中出现的总次数,n表示标记块的个数。作为优选,为了考虑到一个高质量的特征关键词不仅需要在所属网站类别频繁出现,还要在其他类别网站很少出现,所述特征训练提取模块中计算候选特征词区分度的方法为:
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>其中,C为网站类别集合,p(C
i)表示网站类别C
i的概率,p(C
i|t)表示特征词t在类别C
i中出现的概率,m表示网站类别的个数。作为优选,为了使得权值的计算能更加客观地反应特征词在网页中的权重,所述特征训练提取模块中计算候选特征词权值的方法为:w(t,i)=TF(t,i)×E(t,i)×IG(C,t
i)其中,w(t,i)表示特征词t在网页i中的权值,TF(t,i)表示特征词在网页i中的频数,E(t,i)表示网页内的重要度值,IG(C,t
i)表示特征词的区分度值。作为优选,为了进一步实现发明目的,所述网页分类模块计算特征空间向量与待分类站点的特征空间向量相似度的方法包括以下步骤:(2.1)计算待分类站点关键词权值:定义一个标记集合SS={TITLE,me
ta KEYWORDS,me
ta DEs
criptION,A1,A2,H1,H2,H3,B,I,U}其中,A1为一级出链,A2为二级出链,设对应的权值集合为W
α={W
α|α∈S}其中W
α标记α对应的权重,并且满足W
TITLE>W
meta KEYWORDS>W
meta DEscriptION>...>W
U则对于关键词t
i其在网页文本i中的权重可以定义为
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>其中,W(t,i)表示关键词t在网页文本i中的权重,F
i表示关键词在网页文本i中出现的次数,N为训练集合中的网页文本总数,DF
i表示训练集中出现关键词t的网页文本数,k为给定文本的词条总数;(2.2)计算特征空间向量与待分类站点的特征空间向量相似度:特征空间向量与待分类站点的特征空间向量相似度为:
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>其中,w
1k、w
2k分别表示种子网站D1和待分类网站D2第k个特征项的权值,1<=k<=n。作为优选,为了进一步验证网页分类的结果,所述系统还包括训练分类效果评估模块;训练分类效果评估模块包括准确率评估模块和查全率评估模块,准确率评估模块的评估值为分类正确网站数与实际分类网站数比值,查全率评估模块的评估值为分类正确网站数与应有网站数的比值。有益效果:本发明与现有技术相比,有以下几个优点:1.使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析。2.使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板。3.对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类。4.系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。
附图说明图1为本发明特征关键词组提取流程图;图2为本发明基于特征关键词向量空间模型分类算法流程图。
具体实施方式下面结合附图对本发明作更进一步的说明。如图1所示,对行业基准网站进行链接数判断,若大于一定阀值则抓取主页数据,否则抓取下一级链接数据;对抓取到的数据进行预处理并且对其网页文本内容进行解析,接着判断容器有效节点,若不是则判定其为噪声进行删除,否则对节点块分词进行处理;计算特征词类别重要度,以及通过网站类别特征词库计算得到特征词类别区分度,结合重要度和区分度得到特征关键词权重集合;进一步得到网站类别特征关键词集合从而建立网站类别模板向量。如图2所示,本系统包括两大部分,一部分是特征提取模块,另一部分是网站分类模块;特征提取模块将行业基准网站按照如图1的流程对其特征关键词进行提取后,与网站分类模块中的网站类型特征词库进行数据互换,然后通过提取的特征关键词得到网站类别模板向量,将网站类别模板向量与网站分类模块中已经建立的特征向量通过分类器的比较得到分类结果。网站分类模块中首先对目标网页进行收集并对其文本内容进行解析,再判断其是否为有效节点,若不是则删除无效节点,否则与网站类型特征词库中的特征词进行匹配,然后建立特征向量,通过分类器的判断,得到分类结果,对分类结果进行评估,若评估值大于给定阀值则将分类结果写入网站类别知识库中。下面结合实施例对本发明作更进一步的说明。首先建立网站类别体系,网站类别体系包括6个大类,60个小类,6个大类为网络科技、教育文化、休闲娱乐、生活服务、行业企业及综合其他;网络科技分为电脑硬件、资源下载、搜索引擎、技术编程、域名主机、网络营销、网络安全、网上商城、网络通信及IT资讯,教育文化分为教育考试、技能培训、出国留学、天文历史、音像制品、高等院校及报刊图书,休闲娱乐分为音乐网站、游戏网站、旅游交通、娱乐时尚、图片摄影、视频电影、小说网站、动漫网站及星座运势,生活服务分为餐饮美食、聊天交友、求职招聘、房产中介、汽车资讯、银行保险、家居建材、影楼婚嫁、卫生健康、母婴网站、驾校学车、宠物玩具及投资理财,行业企业分为食品饮料、招商加盟、家电数码、纺织皮革、汽摩配件、机械五金、电子安防、农林牧渔、服装鞋帽、能源化工、冶金矿产及物流运输,综合其他分为门户网站、网址导航、论坛综合、政府组织、博客网站、社交网站、国防军事及体育综合。接着对种子基准网站特征训练提取,主要对网页文本构造特征空间,并对特征空间中的特征关键词进行评估,选择重要度大且区分能力强的特征词来语义表达种子基准站点,种子网站输入数据如表1所示,经过抓取模块、网页文本内容解析模块、分词模块及特征训练提取模块处理后得到输出数据如表2所示。表1
种子网站地址
站点类别
http://www.guzhang100.com
电脑硬件
http://www.enet.com.cn
电脑硬件
http://www.onlinedown.net
资源下载
http://www.skycn.com
资源下载
http://www.so.com
搜索引擎
http://www.51cto.com
技术编程
http://www.oschina.net
技术编程
http://www.dangdang.com
网上商城
http://www.51buy.com
网上商城
http://www.jd.com
网上商城
http://www.51test.net
教育考试
http://www.canet.com.cn
技能培训
http://www.gs5000.com
天文历史
http://www.9ku.com
音乐网站
表2
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="451"/>
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>然后网页分类模块根据给定的特征关键词组及权值信息形成特征空间向量,特征空间向量包括关键词向量和权重向量两部分,计算特征空间向量与待分类站点的特征空间向量的相似度来确定站点所属的类别,待分类网站网址如表3所示,使用的特征关键词组、所属类别和相似度,分类结果信息自动写入数据库,其数据项如表4所示。表3
待分类网站
http://www.qq.com
http://www.jd.com
http://www.so.com
http://www.douban.com
http://www.tudou.com
http://www.rayli.com.cn
http://www.renren.com
http://www.2345.com
http://www.enet.com.cn
http://www.aizhan.com
http://www.dianping.com
表4
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>
![]()
ntent="drawing" img-format="TIF" inline="no" orientation="portrait" wi="700"/>最后通过训练分类效果评估模块对特征训练提取、分类器分类结果进行评估,对特征训练提取差的种子站点,主要采用以下方法优化:对于特征不太好的种子站点,采取分析分类结果信息,计算特征词和类别的关联关系,重新对特征向量赋予权重的方式;对于特征较差的种子站点,采取自动删除的方式,使用分类相似度高的站点作为种子站点。本系统使用关键资源表示一个与某一主题最相关的网页或文档,采用网站主页优先原则获取网站关键资源,并设定链接数的阈值,如果超过阈值则使用主页作为网站特征关键资源进行特征训练,否则,对主页的下一级链接页面进行分析;使用关键词组对基准种子网站进行语义表达,基于标签分块的特征训练提取算法,通过删除特征项空间的信息量小、重要度低的特征词实现特征空间降维,选择具有区分能力的特征词,依据特征词的重要度和区分度的综合计算结果进行归一化处理,建立种子网站类别特征向量模板;对每个网站使用特征关键词组语义表达,再对特征关键词组建立特征向量,分类器根据种子网站特征向量模板和待分类特征向量集合,计算网站内容相似度进行度量,实现对网站进行分类;系统根据特征训练、分类器分类结果评估信息,按从差到好的优先级顺序,持续完善、优化类别特征向量模板。