引言
网络黑产是互联网各类地下产业的简称。2017年网络安全生态峰会1发布的《电子商务生态安全白皮书》 指出,我国网络黑产从业人数已超过150万,市场规模高达千亿元,每年由黑产直接或间接造成的经济损失估算高达915亿元[1]。典型的网络黑产包括网络欺诈、网络色情、网络赌博和违禁品买卖等,这些不仅是我国法律明令禁止的行业,还会给社会稳定带来威胁。
网络黑产一方面需要躲避监管平台的检测,另一方面却又需要扩散信息、寻找潜在客户群以获取利益。在躲避监管方面,黑产目前多采用快速频繁更换行业关键词的方式,例如“气狗”“汽狗”指气枪,“狗粮”指子弹,“溜冰壶”代表吸毒用品等。在信息扩散方面,主要采用恶意互联网推广模式来寻找客户进行交易,最终实现获利。这其中主要模式就是黑帽SEO,即通过攻击搜索引擎算法提高黑产关键词在搜索结果中的曝光率,使潜在客户能够快速找到交易平台。长期以来,搜索引擎与黑产开展了一轮又一轮的检测与反检测技术对抗与升级。
黑帽SEO与黑产
黑帽SEO
对普通用户而言,搜索引擎是其获取各类互联网资源的入口,每日从搜索引擎产生的访问流量数量巨大。以Google为例,其每秒查询量超过66000次 [2]。对于一个特定网站,如何提升其在搜索引擎上的排名、以获得更大的访问流量,是至关重要的事情。
SEO(Search Engine Optimization),即“搜索引擎优化”,是通过对网站内部结构、内容调整及外部链接关系进行优化,帮助搜索引擎对该网站快速定位特征、提取重要信息,使网站满足搜索引擎收录要求,并逐步提高在搜索结果中的排名。
根据优化手段和侧重点不同,SEO又分为白帽SEO和黑帽SEO。其中,白帽SEO是根据搜索引擎发布的网站优化指南,合理优化网站,提高用户体验,并改善与其他网站的链接关系,获得搜索引擎较好的权重判定,使网站排名逐步提升。其特点是关注长远利益,优化周期长但效果稳定,适合于正常网站长期使用。与之相反,黑帽SEO更注重实现排名短期快速提升,使被推广网站短时间内获得较大的访问量,因此往往采用被搜索引擎认为是作弊或攻击的方法。黑帽SEO主要被黑产用于推广与之相关的关键词或网站信息。这种方式一旦被搜索引擎厂商发现,将面临严厉的惩罚,一般情况下搜索引擎厂商会将该网站所有内容从搜索结果中直接删除,即俗称的“K站(kill site)”。
传统的黑帽SEO技术包括关键词堆砌(keyword stuffing)、页面障眼法(cloaking)、伪原创(article spinning)、暗链(hidden links)等。伴随着每个黑帽SEO技术的大规模使用,搜索引擎厂商也开发了相应的检测系统。
目前有关黑帽SEO的研究主要集中在对于分散技术点的分析与检测,因此存在着检测技术滞后、无法进行主动监控、监控实时性不强等问题,导致搜索引擎厂商在与黑帽SEO的技术对抗中始终处于不利的境地。
黑产
为了在推广非法物品的同时逃避监管部门及安全厂商的检测,黑产的买卖双方多会通过其专有的黑产网络语义体系进行沟通,掩盖其真实的商业意图。黑产网络语义体系很大程度上由黑产关键词(black keyword)构成,而这些关键词又多通过自创新词、旧词新用、同音词替换、形似词替换等获得。例如,在网络黑产中,“出肉”代表卖出毒品,“铁算盘”代表六合彩彩票,“菠菜”代表博彩,“杏彩娱乐”代表原有赌博平台“吉彩娱乐”等。这类关键词很难通过一般的语义环境推测其真实含义,因此增加了黑产的检测难度。
深入挖掘黑产网络语义体系对于追踪和打击黑产具有非常重要的意义,但同时也是一项极具挑战性和耗时巨大的工作。传统的挖掘方法主要通过渗透进入地下论坛、获取黑产从业人员沟通交流记录,通过人工观察提取特征词的方式不断完善对该语言体系的理解。这种方法存在许多困难:需要较大的人工和时间成本投入,而产出不可预期;当面临大规模扩展应用时,无法有效支撑应用环境;对研究人员素质要求比较高,需要深入了解黑产语义体系,对于非母语的研究对象将存在更高的难度。同时,随着黑产网络语义体系的不断升级,黑产关键词的语义信息更加难以从上下文文本中直接推理获得,因此研究难度更大。
目前有关黑产网络语义体系的研究主要集中在黑产关键词的自动挖掘与分析方面,对于深层次网络语义的理解仍存在较大的改进空间。
对黑产的研究
网络语义是指一个网络内多数计算机包含内容的规律性、内在解释,以及在表达方面的共性。这里的网络语义包括域名语义、链接语义、内容语义和视觉语义等。本文所描述的网络语义既包括正常网站、正常页面表达的正常网络语义,也包括黑产网站、黑产页面表达的黑产网络语义。
我们在研究中发现,网络黑产是个相对封闭的体系,直接基于自然语言处理和关键词处理的检测方法很难形成有效、准确率高的检测方法。而通过网络语义对黑产进行检测,是一个高效、有针对性的手段。
有明确语义背景的黑产
通过对黑帽SEO技术的跟踪分析,我们发现黑帽SEO经常通过攻击高权重网站2、在被攻击的网站上放置黑产关键词、欺骗搜索引擎索引黑产关键词的方法,使黑产关键词快速进入搜索结果索引列表并在搜索结果中显示。这类SEO技术的明显特征是通过网络攻击或其他手段获得权威网站操作权限,并以该网站为基础,搭建SEO的基础设施,达到推广的目的。这类方法运维成本低,且聚焦在利用高权重网站配置、运行漏洞上,手段隐蔽,效果很好。
针对这类攻击技术,我们研究了:使用自然语言处理方法,对含有明确语义信息的顶级域名(Top Level Domain,TLD,如“.edu”代表教育、“.gov”代表政府等)提取正常网站的域名语义、文本语义,并转换为基本向量。在搜索结果中查找高权重网站出现的包含黑产关键词的页面,将这些页面的域名语义、文本语义同样做特征提取,并转换为基本向量。对比两个向量之间的距离,如果超过一定的阈值,将视为高权重网站中出现了与原语义不相符的内容,记录并报警。按照这个思路,我们构建了基于网络语义的自动检测系统SEISE[3]并对141个国家的403个赞助顶级域名(sponsored TLD, sTLD)进行检测,发现超过11000个被攻击的高权重网站。通过SEISE的研发、部署和对检测结果的分析,我们发现了多个利用高校、教育机构、政府等高权重网站进行恶意推广的地下组织及其所采用的黑帽SEO特征,初步探索了对黑产网络语义的挖掘方法,为后续研究提供了参考性思路。
目前该研究成果已经被2016年信息安全领域四大顶级会议之一的Oakland Security S&P录用,该检测系统已经部署在清华大学网络科学与网络空间研究院,近期完成了对我国中小学网站的安全性检测,取得了很好的检测结果。
没有明确语义背景的黑产
黑帽SEO的推广方式中,还有一种通过购买域名、服务器等基础设施,自主搭建网站进行搜索引擎优化的方法,对黑产网站或黑产关键词进行恶意优化推广。该类方法的运维成本相对较高,优化周期相对较长,但由于全部组件均由黑产从业者掌控,具有生存能力强、技术变化快的优势。目前这种推广方式叫做“蜘蛛池”[4]。
“蜘蛛池”采用DNS泛域技术创建无数个三级以上的子域名,导致域名没有明确的语义;同时采用恶意文本填充的方式,即自动爬取高权重网站内容、替换其中一部分为黑产推广的关键字,在文本语义方面进行混淆。然而,从链接结构的分析中我们发现,“蜘蛛池”的目标在于构建相互链接的封闭池,使搜索引擎爬虫一旦进入将很难跳出,始终在池子内爬取精心构造的推广内容,实现恶意推广。因此,对于这类黑帽SEO方法,我们采用了基于链接语义的检测方法。
在构建检测系统的过程中,我们主要完成了以下几个方面的工作:(1)实现了针对“蜘蛛池”的自动挖掘、检测系统。该系统利用“蜘蛛池”链接语义的特征,从DNS端和网页结构端出发,对22个TLD/SLD下的超过1300万个域名进行检测,最终发现了超过45万个被用于黑帽SEO的域名。(2)深入挖掘“蜘蛛池”的结构特征,对所涉及的基础设施特点、客户类别及其对搜索引擎的影响进行分析,分析了“蜘蛛池”的实际推广效果。(3)与搜索引擎厂商合作,将检测系统部署在实际生产环境中,对“蜘蛛池”的技术变化进行实时跟进。
目前该项研究成果已经被信息安全领域四大顶级会议之一的Usenix Security 2017录用,同时检测系统部署在百度公司,累计检测出超过500万个“蜘蛛池”域名(2018年5月3日与百度确认,具体数字是5046806个),取得了良好的检测效果。
黑产网络
黑产关键词是黑产推广的核心要素。然而黑产关键词不同于普通的关键词,具有如下特点:(1)隐蔽性。为了逃避检测,黑产关键词都是自然语言无法正常理解的词,例如“平马二中一”“丁香五月天”,目前没有可用的处理系统能够将这类关键词的语义属性正确地归类。(2)实时性。黑产关键词具有很强的时间特性,一些关键词只出现在特定时间背景下。如“微信红包 尾数”,这是2017年春节前后伴随着微信红包的流行出现的新型网络赌博关键词,通过押注微信随机红包的尾数进行赌博。(3)依赖性。黑产关键词对其前后内容的语义环境比自然语言有更强的依赖性,如“菠菜”“铁算盘”,如果没有前后的语义环境,很难将其与博彩联系起来。
针对以上特点,我们对黑产网络语义进行了体系化的研究,并研发出自动分析、挖掘工具。
(1)构建针对网络黑产关键词的自动挖掘与检测系统KDES[5],该系统能够从已知的黑产SEO站点出发,自动挖掘、提取其中的关键词,并在所挖掘黑词的基础上,结合搜索引擎的相关搜索功能,对黑产关键词进行自动扩展。(2)对黑产网络语义的核心词的自动筛选,实现对黑产网络语义的实时监测分析。(3)评估了黑产关键词在实际网络流量中的保有量及其覆盖范围,揭示了长尾关键词在其中的重要作用,并重点就黑产关键词对搜索引擎的实际影响进行测量。(4)对黑产网络语义特征进行系统性的梳理,就黑产关键词在推广过程中所涉及的关键技术进行分类,从实际操作层面分析了黑产网络语义的形成过程。(5)针对黑产的具体细分领域进行探究,为后续对网络黑产不同领域的深度挖掘提供了指导性思路。
目前该项研究成果已经被收录在Oakland Security S&P 2017,检测系统部署在百度公司,在协助百度分析、获得最新流行的黑产关键词方面取得了良好的实际效果。
黑帽SEO的趋势
互联网黑色产业具有产业规模庞大、业务纷繁复杂、技术迭代迅速、语言体系封闭等特点,对于这类产业实现有效的检测和监管都是非常大的挑战。从网络语义出发的黑产推广技术研究,帮助我们抓住了黑产推广的根源和本质,为我们不断深入开展后续研究工作提供了基础的研究思路。
黑帽seo技术与检测技术
目前网络空间检测与反检测的技术对抗不断升级演化,通过对黑帽SEO技术近几年发展特点分析,未来黑帽SEO技术演化可能会在以下几个方面进行:(1)多种黑帽SEO手段的综合运用。之前已经研究的黑帽SEO手段包括泛域名、恶意关键词填充、构建恶意链接等,而对“蜘蛛池”的研究使我们发现,黑帽SEO将以上多个技术进行了综合应用,构建了一个围困搜索引擎的推广池。同时,最新的技术跟踪表明,黑帽SEO倾向于将泛域名、泛目录、泛端口等技术结合起来,构建一个能够产生无数子域名、无数URL路径和拥有相对丰富开放端口的推广池,与现有检测技术进行对抗。(2)降低每个页面的恶意推广阈值。基于对多种恶意推广技术的结合,黑帽SEO在构建无数页面的同时,降低每个页面中的恶意推广内容出现的频率,使其在自然语言处理和语义分析的范畴内降低到理论上不可识别的程度,躲避黑产检测。
对于黑帽SEO的检测技术研究有几个方面:
(1)系统性分析。当前针对黑帽SEO技术的研究大多局限于具体的案例,针对该类技术的系统性分析较少,相应的防范措施也缺乏完善的防护体系,因此,如何系统性地加强针对该类技术的分析检测将是一个很有意义的研究方向。(2)实时性分析。当前针对黑帽SEO技术的探索多为“被动发现式”研究,很大程度基于人工对海量数据的分析,很多新的恶意推广技术都是在投入使用相当一段时间后才被发现,导致业界已经受到一定危害。如何加强对该类技术的实时性跟踪,进一步预测技术的变化路线,是黑帽SEO检测领域的一个重要问题。(3)完善性分析。通过研究探索完善搜索引擎排名算法,尽可能减少存在的漏洞,提高黑帽SEO攻击的技术难度。
黑产网络语义体系
语义是黑产要表达给用户的最终目标。无论黑产采用何种技术手段进行欺骗、仿冒,目标用户所看到的内容将是黑帽SEO所想要表达的最终内容。因此,需要对黑产网络语义进行研究。
主要研究内容有:(1)黑产语义的自动理解:现阶段已初步实现基于各类黑产网页内容的关键词自动挖掘,并可以针对最新的黑产页面进行检测。但当前仅能对黑产关键词所属的大类(如博彩、色情等)进行分析,暂时无法自动挖掘黑产关键词自身的含义,故如何自动理解黑产关键词的深层含义将是未来一个很重要的研究方向。(2)黑产语料库的构建:在了解黑产关键词语义的基础上,不断完善和丰富黑产关键词语料库,预测黑产关键词的变化趋势。同时,在完善语料库的基础上,还可以充分利用新的语料库进一步对黑产检测平台给予反馈,形成良性循环。(3)多元素语义信息的挖掘分析:在黑产相关的线上平台中,很多重要内容均以图片或JS动态渲染的形式呈现并逃避常规检测。然而,该类资源在当前的研究中并没有得到充分的挖掘利用。同时,不规范的第三方支付,为黑产的最终获利提供了便捷的渠道。如何充分挖掘这类黑产相关的多元素语义信息,也是非常值得研究探讨的问题。 ■
参考文献
[1] 人民网.“网络黑产”市场规模高达千亿[OL].(2017-07-28).http://legal.people.com.cn/n1/2017/0728/c42510-29434169.html,2015
[2] Thomas K, Huang D, Wang D, et al. Framing Dependencies Introduced by Underground Commoditization[C]// Proceedings of the Workshop on the Economics of Information Security. 2015.
[3] STATS, I.L. http://www.internetlivestats.com/google-search-statistics/, 2018.
[4] Liao X, Yuan K, Wang X F, et al. Seeking Nonsense, Looking for Trouble: Efficient Promotional-Infection Detection through Semantic Inconsistency Search[C]// ser. IEEE Security and Privacy. IEEE, 2016:707-723.
[5] Du K, Yang H, Li Z, et al. The ever-changing labyrinth: A large-scale analysis of wildcard dns powered blackhat seo[C]//Proceedings of the 25th USENIX Security Symposium (USENIX Security 16). Austin, TX: USENIX Association, 2016: 245-262.
[6] Yang H, Ma X, Du K, et al. How to Learn Klingon without a Dictionary: Detection and Measurement of Black Keywords Used by the Underground Economy[C]//Proceedings of the 2017 IEEE Symposium on Security and Privacy. IEEE, 2017: 751-769.
(黑帽SEO技术,网站快速排名,蜘蛛池加速收录,目录程序定制)
扫一下添加微信:
版权声明:本文为 “黑帽百科” 原创文章,转载请附上原文出处链接及本声明;
工作时间:10:00~22:00
客服电话
电子邮件
hack66666@foxamil.com
扫码二维码
获取最新动态