Dangerous webpage identification method based on chrome plug-in
An identification method and web page technology, which is applied in the field of Internet information security, can solve problems such as the complexity of the extraction process
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment Construction
[0065]下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0066]一种基于chrome插件的危险网页识别方法,用于识别危险网页,包括如下步骤:
[0067]步骤1)支持向量机第一维度数据提取,如图3所示,具体步骤包括:
[0068]步骤1.1)提取一个网页中所有外部链接的URL;
[0069]步骤1.2)访问http: / / data.alexa.com,根据网页URL中的域名获得网页所在网站的Alexa排名;若该网站排名在1000名以内,直接将该网页视为安全,若该网站排名在1000名以外或索取不到排名,则危险因素0(danger0)置1;
[0070]步骤1.3)分析当前网页URL以及网页外部链接的URL中的各级域名,取其中最长的一级域名;若最长的一段域名长度大于18,危险因素3(danger3)置1,否则为0。对URL的划分方法如下:先以" / ”划分URL,取其中的域名段,再在域名段用".”划分,将各级域名作为字符串加入到一个数组中;
[0071]步骤1.4)对当前网页URL以及网页外部链接的URL进行再次切割并提取信息:若域名以".com.cn”结尾,则提取三级域名;若不是,则提取二级域名;
[0072]步骤1.5)将从每个外部链接URL提取的域名与知名域名数据库中的域名一一比对,计算相似率,取相似率小于1的最高值,记为p,与知名域名数据库中某域名相似率为p的从外部链接提取的域名记为dname。
[0073]比对及相似率计算方法是:先将提取的每个域名分别与数据库中与其长度(L)相同的知名域名一一比对,找到其中相同的字母数s,计算相同字母占比(pr),公式为:
[0074]pr=s / L (公式1)
[0075]记录相似率pr小于1的最大值,将其赋给变量percent(若pr为1,则所提取域名相关的链接直接视作安全),并记录pr为percent的域名。
[0076]然后再将提取的每个域名分别与数据库中与其长度不相同的知名域名一一比对,把域名看作字符的集合,利用Dice系数计算域名之间的相似度:
[0077]
[0078]记录相似率s小于1的最大值,将其赋给变量dpercent,并记录s为dpercent的域名。
[0079]比较变量p...
PUM
Abstract
Description
Claims
Application Information
- R&D Engineer
- R&D Manager
- IP Professional
- Industry Leading Data Capabilities
- Powerful AI technology
- Patent DNA Extraction
Browse by: Latest US Patents, China's latest patents, Technical Efficacy Thesaurus, Application Domain, Technology Topic, Popular Technical Reports.
© 2024 PatSnap. All rights reserved.Legal|Privacy policy|Modern Slavery Act Transparency Statement|Sitemap|About US| Contact US: help@patsnap.com