Webpage purification system based on Render_DOM model and purification method thereof
A technology for purifying the system and DOM tree, which is applied in website content management, network data retrieval, other database retrieval, etc. It can solve the problems of DOM tree redundancy, excessive construction, only considering a single model algorithm, etc., to eliminate webpage noise, The effect of ensuring safety
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment Construction
[0042]下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043]本申请提供一种基于Render_DOM模型的网页净化系统,所述网页净化系统包括采集模块、解析模块、渲染模块、分割模块以及视图显示模块;
[0044]其中,所述采集模块用于获取网页HTML信息,所述解析模块能够对获取到的HTML信息进行解析,对HTML编码成字符串,生成DOM树,同时加载图片、样式表、JS脚本等资源解析生成CSSOM树,所述渲染模块用于将生成的DOM树和CSSOM树结合渲染生成Render_DOM渲染树,所述Render_DOM渲染树以盒子模型的形式体现;
[0045]所述优化模块包括Block块树模块、合并模块和分割模块;
[0046]所述Block块树模块用于将HTML中的块状元素对应的Render_DOM渲染树的Block节点以从上至下、从左至右顺序编号的路径形成Block块树,所述Block块树包括基本单元块,所述基本单元块的子节点为叶子节点;
[0047]所述合并模块用于将达到一定相似度的基本单元块进行合并;
[0048]所述分割模块用于将基本单元块中的字符串以盒子模型中属性进行排列,生成字符串序列,将重复的字符串分割;
[0049]所述视图显示模块用于显示经过优化模块合并和分割后的网页。
[0050]图1为现有技术中DOM树模型的一个实施例,对应图1中DOM树模型的HTML文件代码如下所示:
[0051]
[0052]
[0053]
[0054]DOM示例
[0055]
[0056]
[0057]
[0058]
[0059]A Example
[0060]
[0061]
[0062]HelloWorld
[0063]
[0064]
[0065]
[0066]上述HTML代码是图1所示的DOM树模型的HTML代码体现,其中,如图1所示,HTML是DOM树模型中的根节点,HEAD和BODY是根节点HTML的子节点,而作为子节点的HEAD和BODY也各有自己的子节点。其中,在DOM树模型中,将具有下级子节点的子节点称为中间节点,如TITLE;无下级子节点不可再分割的子节点称为叶子节点,如BR。
[0067]通过解析器对...
PUM
Login to View More Abstract
Description
Claims
Application Information
Login to View More 


