Detection method and system for malevolence injection script web page
A detection method and web page technology, applied in the field of computer networks, can solve the problem of unable to find dynamic content web pages, etc.
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment 1
[0059]实施例1为所述的对动态内容网页集合进行聚类分析的例子。这里假设网页爬虫从被扫描网站下载了8个网页,其对应的URL分别如下:
[0060]1) / cgi-bin / bbs / printpost.asp?pid=123
[0061]2) / cgi-bin / bbs / printpost.asp?pid=140
[0062]3) / documents / teaching / chapterl.htm
[0063]4) / cgi-bin / authors / authorsdetail?aid=1400
[0064]5) / documents / teaching / chapter3.html
[0065]6) / images / teaching / logo.TIF
[0066]7) / cgi-bin / authors / authorsdetail.asp?aid=1450
[0067]8) / documents / pdf / introduction.pdf
[0068]首先,按照URL请求的Web对象文件扩展名过滤掉与静态Web对象请求相关的网页;这里,那些文件扩展名为”.pdf”,”.htm”,”.TIF”,”.html”的URL所请求的Web对象明显为静态Web对象,因此过滤掉URL3、URL5、URL6和URL8,只剩下URL1、URL2、URL4、URL7所对应的网页为动态内容网页。
[0069]然后,对这四个URL按目录结构和文件名进行聚类,得到两个初始的网页簇:网页簇1为{URL1,URL2};网页簇2为{URL4,URL7};
[0070]最后,对各初始网页簇,按URL参数格式进行再次聚类。很容易发现:网页簇1的两个URL的参数分别为”pid=123”和”pid=140”,它们具有相同的URL参数格式”pid=integer”,因此,URL1和URL2所对应的动态内容网页属于同一个网页簇;网页簇2的两个URL的参数分别为”aid=1400”和”aid=1450”,它们具有相同的URL参数格式”aid=integer”,因此URL4和URL7所对应的动态内容网页属于同一个网页簇。按照此方法构造的动态内容网页簇如附图4所示,这里,printpost.asp节点450表示动态内容网页簇1,它包含URL1和URL2;Adetail.asp节点460表示动态内容网页簇2,它包含URL4和URL7。
[0071]如附图5所示,所...
Embodiment 2
[0077]所述的将表1中示例的动态内容网页转换为文档对象模型树的一个实施例如附图6所示。
[0078]表1 一个动态内容网页实例
[0079]
[0080]BBS group
[0081]
[0082]
[0083]Good Morning.Alice!
[0084]
[0085]
[0086]
[0087]附图6中,每个HTML标签表示为文档对象模型树中的一个节点,各HTML标签之间的层次关系在文档对象模型树中表示为子树和子节点关系。
Embodiment 3
[0089]所述的从文档对象模型树Tm和Tk中提取最大共用文档对象模型树Tg的一个实施例如附图7所示。如附图7中所示,文档对象模型树Tm包含8个节点,文档对象模型树Tk包含9个节点;提取的最大共用文档对象模型树Tg包含7个节点。
PUM
Abstract
Description
Claims
Application Information
- R&D Engineer
- R&D Manager
- IP Professional
- Industry Leading Data Capabilities
- Powerful AI technology
- Patent DNA Extraction
Browse by: Latest US Patents, China's latest patents, Technical Efficacy Thesaurus, Application Domain, Technology Topic, Popular Technical Reports.
© 2024 PatSnap. All rights reserved.Legal|Privacy policy|Modern Slavery Act Transparency Statement|Sitemap|About US| Contact US: help@patsnap.com