Intelligent webpage content automatic fuzzy extraction system
A technology for extracting system and web page content, applied in website content management, network data indexing, network data retrieval, etc., can solve the problems of difficulty in covering website requirements, inefficient extraction methods, and labor-intensive, and achieve high performance of webpage content extraction. Effect
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment Construction
[0045]为了能够更清楚的说明本发明,以下定义并解释如下的术语:
[0046](1)HTML网页、DOM树、DOM节点、DOM节点的属性:HTML网页简称网页,是互联网和移动互联网上的HTML网页和H5网页的统称。根据国际规范,HTML网页由一个棵DOM(DocumentObject Model,即文档对象化模型)树构成,每个节点称为一个DOM节点,也称HTML节点,或简称节点。其中,每个DOM节点有一对标签以及其中的内容文本构成,形如内容文本。其中,内容文本为该DOM节点的内容部分;属性规定了内容文本的一些特性。例如,在DOM节点内容文本中,style="display:none"就是一个表示不显示的属性,简记为display:none属性。又如,在节点易贷网中,有一个href="http: / / bj.edai.com"属性,简记为href 属性。
[0047](2)业务主题、业务主题节点、业务主题值、业务主题值节点:在不致混淆的情况下,业务主题也简称为主题。每个网页内容都蕴含着一定的业务主题,一个业务主题反映了业务的某一个方面。每个业务主题也可以细化为一些更小的业务主题,称为业务子主题(简称子主题)。在HTML网页中,业务主题一般出现在一个DOM树上的节点上:在DOM树上,有些节点代表业务主题(这些节点称为业务主题节点),有些节点代表业务主题值(这些节点称为业务主题值节点)。下面举例说明。图3(a)给出了一个金融网站的节点,与构成了一个 节点,它包含了两个节点,即年化利率以及 9.8%。在本发明中,年化利率称为业务主题节点,这是因为年化利率是金融领域的一个业务主题;而9.8%称为业务主题值节点,9.8%对应着年化利率的值,称为业务主题值节点。
[0048](3)业务主题的命名要素:在网页设计中,设计人员对每个业务主题进行命名时,往往选择意义明确的词语来表达业务主题。例如,在车贷类金融网站上,经常看到"贷款金额”这一的业务主题,它含有两个命名要素:"贷款”、"金额”,分别需要向社会大众筹集的资金额度。表1给出了一些常见的业务主题的命名要素。
[0049]表1:车贷类金融网站中的常见业务主题的命名要素
[0050]
[0051]又如,对"年化利率”这一的业务主题,它含有两个命名要素:"年化”、"利率”,它们清晰地告诉用户投资收益这一条用户关注的信息。
[0052]为了便于快...
PUM
Login to View More Abstract
Description
Claims
Application Information
Login to View More 


