Dark network data collection and extraction system and method
A data acquisition and extraction system technology, applied in the field of Internet information
- Summary
- Abstract
- Description
- Claims
- Application Information
AI Technical Summary
Problems solved by technology
Method used
Image
Examples
Embodiment 1
[0089]一种暗网数据采集与抽取系统,如图1所示,包括依次连接的暗网站点发现模块、暗网数据爬取模块、页面解析与内容抽取模块、数据融合与存储模块;
[0090]暗网站点发现模块获取多源数据中的暗网url,并发送至暗网数据爬取模块;
[0091]暗网数据爬取模块配置Tor服务,修改Nutch的配置,使其与socks协议交互,基于Nutch做进一步的开发,解决其表单登录和Cookie登录的相关问题;
[0092]页面解析与内容抽取模块进行页面解析、页面向量化、特征码生成、相似度计算与模板集更新、页面内容抽取;
[0093]页面解析与内容抽取模块抽取得到的内容是基于数据项粒度的,数据融合与存储模块采用数据对齐策略对抽取得到的内容重组,同时将内容相近的数据记录融合存入数据库中。
Embodiment 2
[0095]一种暗网数据采集与抽取的方法,如图2、图3所示,本实施例以暗网中毒品数据的爬取为例:包括:
[0096](1)手动或自动获取暗网url;
[0097]自动获取暗网url是指从明网和暗网中寻找包含".onion”域名的链接;自动获取的方式为敏感词查询或站点监控;
[0098]敏感词查询包括:
[0099]A、基于暗网售卖类相关网站中敏感信息构筑敏感词库;暗网中毒品数据的敏感词库中的敏感词包括大麻、冰毒、杜冷丁、可卡因、古柯等毒品种类;
[0100]B、使用敏感词库中的关键词作为查询,爬取搜索引擎返回的结果页面,设定结果页面列表中前10页作为待检测页面;
[0101]C、设计正则表达式,对得到的待检测页面进行提取,得到待检测页面的url,并将得到的url去重存入url存储列表中。
[0102]正则表达式就是在html中寻找链接,并且链接中域名的后缀是".onion”。做法是:先提取html中所有的链接,在获取的链接中过滤出域名的后缀是".onion”的链接。下面是简单的两个正则表达式,只是简单说明提取url采用的方式。
[0103]如获取html中链接:
[0104]Pattern="
[0105]过滤符合要求的链接:
[0106]Pattern=”(.*\.onion)|(.*\.onion / .*)”
[0107]url存储列表是一个简单的数据库,包含两列,一列为索引号,一列为url。
[0108]站点监控包括:
[0109]a、设定监控网站名单;如:一些宗教网站、社交网站、论坛网站等;另外,明网中的一些网站如:https: / / www.deepdotweb.com,会公布已经发现的暗网站点,这些网站也是我们的爬取对象,也列入监控网站名单。
[0110]b、设定爬取间隔T,每隔一个爬取间隔T对监控网站名单中的网站进行爬取;T为一周;
[0111]c、解析所有页面内容,利用正则表达式提取所有符合要求的链接,并将url去重存储;
[0112]d、明网中的一些网站如:https: / / www.deepdotweb.com,会公布已经发现的暗网站点,这些网站也是我们的爬取对象,对所有的url爬取之后去重存储。
[0113]手动获取暗网url,包括:
[0114]D、基于暗网售卖类相关网站中敏感信息构筑敏感词库;
[0115]E、在暗网中根据敏感词库,采用...
PUM
Abstract
Description
Claims
Application Information
- R&D Engineer
- R&D Manager
- IP Professional
- Industry Leading Data Capabilities
- Powerful AI technology
- Patent DNA Extraction
Browse by: Latest US Patents, China's latest patents, Technical Efficacy Thesaurus, Application Domain, Technology Topic, Popular Technical Reports.
© 2024 PatSnap. All rights reserved.Legal|Privacy policy|Modern Slavery Act Transparency Statement|Sitemap|About US| Contact US: help@patsnap.com