有害信息发现和过滤技术手段
出处:网络 作者:lolitamini 责任编辑:fanyun 发布日期:2013-08-26
网络有害信息的发现和过滤技术手段
互联网的快速发展使得人们可以很方便的获得各种信息,与此同时,抵御互联网E的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。
互联网上主要有两类有害信息:
一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息;
另一类是会影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。
网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测,被动防御的方式以网络内容过滤为主。
1基于搜索引擎的有害信息主动监测技术
采用主动扫描探测方法进行有害信息监控的系统,首先要设计网络蜘蛛模块,实现对html、asp、php和jsp等网页的自动抓取,采用算法实现中文分词,开发信息索引模块,实现对网页的批量和增量索引,并且包含有害信息检索模块,实现有害信息监控及预警功能。
搜索引擎,概括起来其组成大致分为四个部分:
(1)搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理;
(2)索引器。理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法,
(3)检索器。用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
(4)用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率和多方式地从搜索引擎中得到有效并且及时的信息。
2内容过滤技术
内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。
现阶段的内容过滤技术主要分为基于网关和基于代理两种,二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理,如果网关和代理出现故障都会使网络不通。目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。基于网络层的实现,最大的挑战有两个方面:首先,应用层分析技术必须全面,因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。其次,是实现兼容性,为实现与操作系统网络底层处理融合,需要充分了解操作系统网络实现机制,甚至替代部分功能,如何不影响操作系统的原有功能是相当困难的,
1.3有害信息监测的核心技术
有害信息监铡的核心技术包括分词技术、文本内容分类关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等
1、分词技术
对网页进行监测时需要进行特征项的提取。对于英文文本,一般足进行词汇的提取,由于词汇之间有天然的分隔符(空格),所以特征项的提取比较容易。中文信息没有这个特点,所以必须采用中文分词技术,把没有词汇标示的中文句子,通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前二种分词方法中最快的。影响这种方法分词速度的因素主要有两点:词典的结构以及匹配算法。
2、文本内容分类
文本内容分类是一个广泛研究的课题,它的任务足把一文本内容分类是一个广泛研究的课题,它的任务足把一以通过文本分类的方法,把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM)、决策树、Nearest neighbor、algorithm等。这些训练过程的基本思路都是从文章中抽取出一些特征关键词,根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。
3关键字识别
对关键字词进行过滤,最理想的方法就是先对字串的词法、句法和语义信息进行分析,再根据句义进行取舍。但计算机对语法、语义的自动分析目前仍处于研究阶段,还不成熟。通常的做法是先人工做成一个含有需要过滤词汇的词典,再根据该词典对用户所发的信息进行检查,即在信息中逐个查找词典中的每一个词。如果找到,有两种方法处理:一是终止查寻,认为该留言不能发表;二是继续查找,直到找出文本中所有的关键词,然后计算该留言中关键词出现的频度,根据事先制定的规则,决定该信息能否通过发表。
4变形关键字识别
为了逃避过滤,不法分子会故意将留言中的关键字进行适当变形后进行提交。关键字常用的变形方法有同音字法、拼音法、字词颠倒法、字词间加其它字符串、以及多种变形混用法等。
由于关键字特征被完全打乱,基本上找不到可以匹配的关键字。因此首先根据关键词识别的情况,就可以判断出属于此类问题。然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序,最后再进行过滤。
5锚文本分析
每一个超级链接都有一个描述文本即锚文本,这个文本反映了该网页与该链接所至网页的某种关系,是互联的关键所在。通过分析这个描述文本,就可以得到网页之间重要的关系。导向词是一组关键词,它们会引导搜索器按照一定顺序搜索网络。通过设置导向词以及对应的权值,锚文本中含有导向词的网页会被优先进行信息采集。权值的设定有根据经验手工设定和采用程序进行特征提取两种方法。
6有害代码特征识别
网络上除了有碍社会公德的有害信息外,还存在影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。计算机病毒等可以通过各类防火墙的杀毒模块进机病毒等。计算机病毒等可以通过各类防火墙的杀毒模块进是网络过滤的重点。
(1) 可执行代码的过滤
HTML足一种标记语言,即在普通文本中插人一些标记(Tag)来控制文本的显示属性。
通常HTML本身不具有执行程序的功能,但HTML支持插入功能各异的ActiveX控件,如一般的客户端浏览器就支持非常流行的VbScript脚本语言和Java.Script脚本语言。为使调用Script脚本语言的代码失效,可以用。&1t;”代替“<”。因为。&h;”是“<”的转定义字符,浏览器在解释“&h;”时会把它当作“<”来处理,但它这时不会把“<”作控制符看,而只是把它当作显示字符。为避免大小写混写的“<Script>”查不出来,可使用Lcase0函数先把字符串变成小写再查,这样就限制了“<Script>”后面的脚本程序的执行,同时将代码显示出来。
(2) 贴图代码的过滤
在BBS中,文字可使用过滤的方法进行处理,图像信息和视频信息目前却无好的解决
办法。通常的做法是在BBS中禁用贴图和加视频流的代码。在HTML中,除了正常的贴图指令<IMG SRC=“?”>以外,还有很多可以贴图的非正规指令,也必须一一找出来加以过滤。
(3) 其它代码的过滤
述代码外,还有一些代码如果出现在BBS中,也有可能造成危害,因而需要在过滤程序中将这砦代码过滤掉,如包含页代码<IFRAMEx/IFRAME>,可以在页面中插入任何其它页面I自动跳转页面代码<meta httlYequiv=“refresh” content=-。3 l url=http://??/ncwpage.htm”>可以将页面从当前页跳转到任何页面。如果包含页或跳转贞面含有有害信息,一般来说,在BBS中需要过滤掉的代码有<img,background,<embed,<input,<iframe,<object,<applet,<script,<meta等。
注:评论审核后才能被公开。
相关文章
- [手机·数码] 红魔涡轮散热背夹:... 2022-02-15
- [名人传记] “白帽黑客”王骕:... 2021-08-17
- [市场动态] 世界芯片代工巨头诞... 2020-01-13
- [社会百态] 人们对于技术的陌生... 2019-06-28
- [都市情感] 生活中有太多的美好... 2019-06-21
- [美容养生] 哪些人容易得慢性支... 2018-07-24
- [社会百态] 由于透视法、解剖学... 2018-07-18
- [商业·网络] 只需拉伸或扭转就能... 2017-08-25
- [热点访谈] 福特即将研发成功车... 2015-01-28
- [网络技术] 【干货】互联网高手... 2014-12-06
- [美容养生] 女性睡眠不足的10... 2014-10-14
- [品牌·配件] 中国电池行业第一展... 2014-04-21
- [商业·网络] 软硬件皆涉足 苹果... 2014-03-03
- [爆笑囧图] (漫画)如何成为一... 2014-02-21
- [社会百态] 灵异事件 英国摄影... 2014-01-06
最新更新
- [促销讯息] 易搜《福建IT行业... 2023-04-21
- [促销讯息] 易搜《安徽IT行业... 2023-04-21
- [促销讯息] 易搜《云南IT行业... 2023-04-21
- [促销讯息] 易搜《福建IT行业... 2023-04-21
- [美容养生] 口腔溃疡的起因不止... 2023-03-29
- [职场入门] 终面技巧丨明明聊得... 2023-03-29
- [职场入门] 应届生离职原因大公... 2023-03-29
- [职场入门] 简历上什么都写只会... 2023-03-29
- [美容养生] 肝脏是否健康,可以... 2023-03-29
- [手机·数码] 8分钟即可充满!传... 2023-03-10
- [职场入门] 关于五险一金,这些... 2023-03-10
- [职场入门] 如何应对校招中的性... 2023-03-10
- [市场动态] 济宁市三项目获省良... 2023-03-10
- [美容养生] 每天总会喝两杯的人... 2023-03-10
- [美容养生] 膳食纤维素益生元功... 2023-03-07
热门点击
- [热点访谈] 易搜《山东IT行业... 2014-04-01
- [名人传记] 董事会该如何订定高... 2014-12-08
- [促销讯息] 易搜《江西IT行业... 2014-07-15
- [促销讯息] 易搜《河南IT行业... 2014-10-24
- [促销讯息] 易搜《福建IT行业... 2014-07-02
- [热点访谈] 易搜《湖南IT行业... 2014-10-18
- [促销讯息] 易搜《四川IT行业... 2014-11-27
- [促销讯息] 看过来看过来!关注... 2014-09-10
- [爆笑囧图] 00年代我们追过的... 2014-09-28
- [热点访谈] 易搜《浙江IT通讯... 2015-01-30
- [手机·数码] 为年终蓄力 十月份... 2013-10-28
- [市场动态] 互联网电视“赛马”... 2013-09-16
- [桌面壁纸] 性感古装美女,亮瞎... 2014-09-16
- [热点访谈] 易搜《浙江IT行业... 2014-08-24
- [热点访谈] 2015年,100... 2015-03-25
评论列表