中文 | English     
首页 产品介绍 项目案例 游戏运营 职位招聘 技术论坛 关于我们


  IDC舆情监管平台(idcSmartView)技术白皮书  

 系统要解决的需求  

        今年1月份开始,国家开始大力整治互联网低俗之风。其中,对IDC监管就是重要手段之一。工业和信息化部在具体的整治行动中,就将互联网接入服务等问题列为专项行动清理整顿的重点。在相关的通知中,特别强调了严格要求所有ISP完成全量网站的备案工作,必须在获得备案号后再进行接入,任何没有获得备案号的网站一律不得接入,一旦发现将采取严厉的惩罚措施。同时也要求对托管服务器的网站内容加强监管,做到及时发现非法内容,及时清理。
        另外一个趋势,现在手机网络越来越发达,很多非法内容,黄色内容也开始层出不穷冒出来。尤其随着3G网络和智能终端的普及,手机网站的内容监管肯定会越来越受到重视。但是目前能监控手机wap内容的工具还非常匮乏。
        IDC舆情监管平台(睿查idcSmartView)就是针对IDC这些需求开发的。idcSmartView目前提供的核心功能有如下几个。
1) 域名自动侦听发现:通过IDC出口的镜像数据,可以及时精确发现每一个时间的域名情况,每天有没有新增的域名。
2) 网站备案关联查询:通过自动解析提取网站首页的备案连接信息,信产部的备案信息自动查询接口(要确保能使用这个接口),或者定期导入信产部发送的域名备案数据,idcSmartView可以关联查询每个包含非法内容的网站有没有备案,这个网站的责任人是谁。
3) Web/wap网站敏感内容扫描搜索:通过搜索技术,对IDC里面运行的网站进行扫描和检索,自己可以设定站点页面抓取连接的深度。及时发现包含非法内容的页面,并准确定位到所属网站,所属IP,以及对应的责任客户。
        idcSmartView除了可以抓取普通的web网站之外,还可以抓取手机网站内容(wap)。随着现在手机网站越来越多,目前也逐渐成了黄色内容和非法内容的传播主要渠道。
        idcSmartView支持三种网站内容审计方式 
  • 通过监控镜像流量,获取站点域名,然后抓取页面数据进行审计。
  • 手工输入监控网站域名,做为抓取数据起始URL。
  • 直接设定IP地址,首先发送http请求,根据网站回应,开始抓去审计。
  • 4) 网站运行状态监控:对于托管在机房的网站,还可以进行运行状态监控,对于已经关闭,或者重定向到其他页面的站点,提示“网站已关闭”等运行状态。
    5) 图片扫描监控:遍历被监控网站各个页面,把包含的图片过滤出来,集中展示,并提供关键词搜索查询,可以加快监管人员审查黄色图片的工作效率。展现形式类似微软bing的图片搜索模式。
    6) 域名主动阻断:IDC运维人员使用本系统可以自己设定关闭阻断某个域名,这样系统会自动阻断对这个域名站点的访问连接。尤其对于IDC内虚拟主机托管的服务器,一个IP地址可能解析了很多域名,这样可以单独关闭用户对某一个域名网站的访问。

     系统总体介绍  

            idcSmartView是采取抓取IDC网络出口的数据,实时分析需要监控的服务器上面都部署了哪些域名和站点。然后逐个针对域名进行页面内容抓取,并全文检索内容,如果碰到包含敏感信息的页面,实时记录下来,然后产生监控报告,并随后持续跟踪确认这些需要整改的内容。这样IDC的管理者就能随时掌握本机房所托管服务器的情况了。
            idcSmartView除了抓取正常的web网站之外,还可以抓取wap网站。现在wap手机网站属于一个监管空白区,导致很多黄色和反动手机网站泛滥,国家相关部门肯定会逐渐提出手机wap网站的监管要求。
            idcSmartView采取自学习模式,随抓取站点页面数的增多,逐渐积累各种过滤条件,可以不断提高页面监控的准确度。

     系统功能说明  

    功能框架图
  • 平台管理基础功能构件
  •         idcSmartView既可以作为独立平台运行,包括完整的账号管理,部门管理,角色管理,管理员登录鉴权控制等。本系统还可以作为独立的功能模块挂接在客户已有的系统平台上,做到和其他平台的无缝协同使用。
            关键字设置管理:监控网站内容的关键字可以设置为全局关键字和局部关键字。全局关键字是所有站点都需要扫描和监控的关键字;局部关键字就是只是在扫描监控某个站点时有效,这样就可以针对某些重点网站进行特殊的扫描。还可以针对关键字设定二级过滤关键字,以便达到更准确匹配命中页面的目的。
            机房管理,IP地址池管理的设计模式是每个机房可以单独设置ip地址池,这样每个机房管理员登录进来之后就可以只是看到自己机房的域名情况以及网站内容监控情况了。
            服务器运行状态监控:平台可以自动检测idcSmartView采集服务器,管理后台服务器的运行参数,以及服务状态。每次管理员登录之后,服务器的运行信息自动显示在工作桌面。
            反向过滤关键字管理:通过设定设定反向过滤关键字,把一次关键字过滤出来的页面,进行反向过滤,包含反向过滤关键字的页面会从页面结果记录中剔除。这样会提高匹配页面的准确度。比如在搜索“色情”关键字的时候,会搜索出来很多包含免责条款的页面,这些免责条款显示的内容一般都是这样的“本页面禁止发布色情,反动等信息”。这样就可以把“禁止发布”设定成反向过滤关键字。系统就会自动把包含这些免责条款的页面从命中结果集中剔除。
  • 最新发现域名查询
  •         系统经过监控网络出口数据,实时发现托管在IDC里面各个服务器的域名,以及域名-IP绑定关系。这个功能查看的是第一次在被检测IP地址段出现的域名的时间。
  • 活跃域名查询
  •         这个功能查看的是被监控IP地址段里,最新还在被访问的域名/网站记录。
  • 查询IP-域名解析历史
  •         可以查询某个IP,或者某个域名在本IDC的绑定历史。比如输入某个IP地址,可以查询到在监控时间范围内,这个IP曾经被绑定的所有域名,以及有效时间段。
  • 托管网站运行状态报告
  •         可以监控被监视站点的运行状态,比如运行是不是正常,是不是被主动关闭。
  • 检查未备案网站
  •         系统可以根据信产部的域名备案自动查询接口,或者定期批量导入的域名备案数据,检索出新发现域名中没有在信产部备案的域名,绑定的IP,以及管理责任人。
  • 主动阻断非法站点域名
  •         系统提供管理界面,可以让IDC运维管理人员关闭某个域名站点,系统就会自动阻断对这个域名的网站访问连接。尤其对虚拟主机的服务器,一个IP地址可能被解析了多个域名,这样可以只是针对某个域名做阻断,而不会影响该服务器其他的域名。
  • 关联查询非法内容所属网站的备案情况
  •         搜索出来包含敏感内容的页面,还可以方便关联到备案信息。让IDC管理者很方便知道哪些网站是没有备案的。
  • 快速查询网站内容扫描结果
  •         查询对各个站点的扫描监控结果。查询界面除了列出包含某个关键字的页面URL,同时还列出这个页面内容的摘要,以及关键字突出显示,以便于管理员能够快速定位关键内容。
  • 确认非法页面后续整改情况
  •         对于管理员确定包含非法内容页面,可以挑选标记为整改页面。系统会在后期新一轮页面数据抓取的时候,自动定期监视这些页面,确认该页面是否整改合格,或者是否已被被彻底删除。
            系统提供查询页面整改结果,对于确定为整改页面的,经再次扫描确认之后,显示整改结果,结果包括如下几种情况:
    A) 内容确认未通过
    B) 内容整改通过
    C) 页面已被删除
  • 图片/视频搜索审核
  •         遍历被监控网站各个页面,把页面包含的图片过滤出来,集中展示,并提供关键词搜索查询,可以加快监管人员审查黄色图片的工作效率。展现形式类似微软bing的图片搜索模式。系统可以设定搜索审核图片的尺寸,这样对于小于某个尺寸的图片,可以不搜索。减少管理人员的审核工作量。
  • 统计报表
  •         平台提供对于站点的扫描结果。目前包括如下统计指标
    A) 发现非法信息页面数量对比报表
    B) 整改页面数量对比报表
    C) 站点被发现非法信息页面数量随时间变化对比报表

     系统部署方式  

            IDC舆情监测平台对于部署环境没有特殊要求,只要网络可达,就可以对被监管站点进行内容抓取,关键字分析,编制索引。
            镜像数据采集服务器需要连接到IDC数据出口交换机或者路由器上,idcSmartView可以设置多台镜像数据采集服务器,这个根据实际IDC的出口路由需求来确定。
            站点内容抓取服务器部署上面没有特殊要求,只要和被抓去网站网络可达就可以。
            为了节省平台服务器,在实际部署的时候,内容抓取服务器和镜像数据采集服务器会合二为一,就是每个镜像数据采集服务器上面会同时部署站点内容抓取服务器。
            下面是网络部署示意图。

     平台软件配置  

            平台采用java语言开发,可以跨平台部署运行,但是建议采用linux操作系统。数据库采用免费的mysql系统。这样可以大幅降低系统整体成本。 

    支撑配置

    数量

    版本说明

    操作系统平台

    1

    linuxRedhat Server 5.X

    数据库

    1

    Mysql 5.1

    web容器

    1

    resin 3.1.Xtomcat 5

     平台硬件配置  

            平台是真正的分布式部署系统。可以根据IDC规模,随时增减部署节点。系统会根据配置参数自动分配域名采集,以及网站内容抓取检索的任务。
            下面是建议的平台硬件配置,这个配置只是一个初级配置,还需要根据监管站点数量的多少,以及抓取内容的保存时间长短来决定是否需要增加服务器配置。
    硬件配置 数量 说明

    HP DL380

    2

    分别部署数据采集服务,网站内容抓取和存储应用,以及信息管理后台。
    RAM4G
    HD150G

     产品特点和竞争优势分析  

     1. 支持多种网站数据抓取方式
              a) 通过监控镜像流量获取域名信息,然后抓取站点内容,进行审计。
            b) 通过手工设定域名
            c) 直接设定IP地址,系统直接请求对应服务器的80端口,对有响应的网站,抓取页面数据,进行审计。
     2. 抓取web/wap网站:idcSmartView除了能监控web网站之外,还可以监控wap网站。
     3. 准确和及时发现活跃域名:系统通过分析IDC出口镜像数据,可以及时准确发现托管机房里面的IP地址对应的域名。尤其针对很多虚拟主机托管的服务器,一个服务器IP地址对应了大量的域名,这样都可以及时发现,发出通知。
     4. 非法内容相对较高的命中率:系统全文检索非法内容页面,经过多次校验和过滤,内容检测准确性和命中率相对较高。系统在持续运行过程中,通过系统自学习方式,过滤规则会逐渐丰富,命中率会不断提高。
     5. 负载自动均衡机制:系统会根据采集服务器的运行情况,在各个采集服务器之间自动分配抓取站点的任务。可以根据IDC的规模,和镜像数据汇聚程度,来规划采集服务器的个数和部署方式。