首页/SEO技术/正文
站群收录:面向网站群的主题爬虫研

 2021年12月08日  阅读 731  评论 0

摘要:引言从 Web 上收集特定主题数据的技术可分为两类:①基于搜索的发现技术[1-3],主要依靠搜索引擎查找网页;②基 于爬行的发现技术[4-6],主要利用 Web 链接结构从已下载的 网页中提取新链接,从而发现更多潜在的目标网页。前者 适用于存在一些关键字可区分主题数据和其它数据的情 况,后者灵活性更强,代表技术就是聚焦爬虫。 与普通爬虫相比,聚焦爬虫有明确的目标指向性,在 爬取网页过程中能够丢弃不相关页面,并始终跟踪可能导 向“相关”页面的超链接,因而能更有效地收集特定主题的 数据。聚焦爬虫框架

引言

从 Web 上收集特定主题数据的技术可分为两类:

①基于搜索的发现技术[1-3],主要依靠搜索引擎查找网页;

②基 于爬行的发现技术[4-6],主要利用 Web 链接结构从已下载的 网页中提取新链接,从而发现更多潜在的目标网页。

前者 适用于存在一些关键字可区分主题数据和其它数据的情 况,后者灵活性更强,代表技术就是聚焦爬虫。 与普通爬虫相比,聚焦爬虫有明确的目标指向性,在 爬取网页过程中能够丢弃不相关页面,并始终跟踪可能导 向“相关”页面的超链接,因而能更有效地收集特定主题的 数据。聚焦爬虫框架与一般爬虫基本相同,也即是说,它 从几个种子链接(Seed URL)开始,下载相关页面并提取其 中包含的超链接,然后跟踪这些超链接以获取更多页面。 不断重复该过程,直到无法以这种方式找到更多网页。

聚 焦爬虫的特殊之处在于,其会引入两个分类器——路径判 别器目标判别器,以决定某个超链接是否值得进一步访 问,以及某页面是否值得保存。其中,路径判别器负责判 断链接值得跟踪与否,目标判别器负责根据网页与主题相关与否对其进行归类。 聚焦爬虫研究主要集中在 3 个方面:

一是如何获得更 有效的分类器,例如使用在线学习策略构建路径判别器 (目标判别器依然需要进行预训练)[7,14-18];

二是如何获得更 好的种子链接,

例如维埃拉等[3] 利用 Bing 搜索引擎,使用相 关反馈(Relevance Feedback)收集种子;

三是如何设计更好 的爬行策略[8-12,19-22]。尽管这些研究从各个方面对聚焦爬 虫进行了改进,预先训练分类器的工作仍不可省略,因此 造成了爬虫使用的不便。

由于其分类器是任务相关的,换 一个目标主题就要重新手动构建数据集进行训练。 

最近,KIEN[13] 将聚焦爬行描述为一个排序问题,其跳 过分类器训练,只使用一些示例网站作为输入。从样本网 站中提取关键词,再通过关键字搜索、前向爬行和后向爬 行扩展样本网站集,其设计的系统根据与当前样本网站的 相似性选择新的样本网站。结果表明,通过适当的相似性 度量,基于排序的聚焦爬虫可取得与基于分类器的聚焦爬 虫相似的性能表现。但其问题设置与本文不同,其目标是 得到相关网站,而不是网页。因此,以上实践启发了本文 用排序器替换预训练分类器构建自举聚焦爬虫,以解决网 站群内部的主题网页发现问题。 本 文 设 计 一 种 自 举 聚 焦 爬 虫(Bootstrapping Focused Crawler,简称 BFC),该方法为聚焦爬虫提供一些示例网页, 而不是预先训练的分类器,从而可略过繁复的分类器训练 过程。该方法适用于特定网站群中的主题数据收集,例如 收集各大学录取信息、各公司招聘信息、各政府网站的政 策信息等。图 1 展示了两个爬取任务示例。任务难点在 于,上千所高校、公司虽然网站架构类似,但每个节点对应 的超链接文字用词千差万别,路径深度与目标页面特征也 存在显著差异。因此,在不预训练分类器的前提下,只提 供少量样例网页充当爬虫向导,是一种新的尝试。 由于特定网站群是众多一手信息的源头,如果能及 时、有效地收集相关信息并汇聚起来,将极大地降低信息 浏览门槛,并催生出数据可视化等应用。因此,本文提出 的网站群爬虫具有很强的现实意义

image.png

image.png

1 网站群爬虫爬取任务示例 

注:粗体字表示爬虫从网站根节点出发的最优爬行路径


1 自举聚焦爬虫 自举聚焦爬虫框架如图 2 所示

image.png


2 自举聚焦爬虫框架 程序有两个输入:

一个是网站群站点(Website)列表, 一个是少量样例网页,每个样例网页包含其所在站点的根 链接和自身链接这一对元素。

首先,对样例网页进行路径 提取与特征提取。在传统聚焦爬虫框架下,需要一个能引 导爬虫到目标节点的向导(路径判别器),以及能够区分目 标节点与其它节点的评委(目标判别器)。路径提取目标 是构建路径判别器,而特征提取目标是构建目标判别器。 区别在于,本文提出的自举聚焦爬虫用相似度排序模块替 代传统框架下的目标判别器,用类似于强化学习的手段在 · 110 ·8 期 线构建路径判别器。然后利用两个判别器从输入的网站 群根节点开始循环抓取网页,并不断把最相关的网页加入 网页样例库,用于更新两个判别器。该流程循环进行,直 到无法发现更多网页或达到迭代次数上限为止。 1.1 路径判别器 

路径判别器本质上是一个二分类器:输入一个超链接 短文本,输出其是否与要爬取的主题相关,或沿着该链接 是否能找到与主题相关网页。在网站群爬虫这个具体应 用场景中,存在一条从站点根节点到当前页面的超链接路 径(见图 1),可利用这条路径上的前序文本增强当前链接 短文本的判断准确度。因此,本文通过路径提取将传统路 径判别器的单一短文本输入扩充为短文本列表。 在页面爬取过程中,对每个待判别的路径 t 打分,如果 分数大于阈值,则判定为相关链接。计算公式如下: f (t) = åw Î tαw 其中,超文本 w 是路径 t 中的词,αw w 的权重,其 初始化使用了样例库提供的信息。具体而言,本文把从样 例网页中提取的路径集中起来,分词后统计每个词的词 频,形成各词的初始权重。其它词默认初始权重为-1,以 惩罚路径中存在过多未知词。在爬取过程中,αw 采用类似 强化学习的策略进行更新。每当一个路径 t 被判定为相 关,其包含词的对应权重都消耗 1;每当找到一个目标网 页,其对应路径中的词权重奖励 2


1.2 相似度排序 

在目标判别环节,本文用排序器替换预训练的分类 器。

具体而言,爬虫根据访问页面与示例网页的相似性对 其进行排序,将相似度大于阈值的网页作为相关网页输 出,并同时将排名前 p%的网页添加到示例库,开始下一轮 迭代。 在计算网页相似度时,采用以下公式: s( x) = -dcos( xx) 其中,dcos 是余弦距离,x 是从待评估网页标题和内容 中提取文本的词袋模型(Bag of Words)向量表示,x 是样例 网页整合成单一文档生成的词袋模型向量表示。该公式 计算的相似度是目标网页与样例库的总体平均相似性。 

2 爬取效果

2.1 实验任务与数据集 

本文按照中国大学排行榜,收集了中国排名前 200 的 大学官方网站页面集合作为实验数据集。为检验爬虫性 能,定义主题爬取任务如下:获取高校历史录取分数相关 页面。本文手动标记每个站点与所需主题相关页面(URL) 作为真实标签,数据集页面总数为 41 600,其中正样本数量 为 1 033。 为得到样例网页库作为算法输入,本文从 200 个网站 中随机抽取 3 个网站,并为每个网站标记一个示例页面,得 到 3 个样例(每个样例含有一对数据,即目标网页的 URL 以 及所在网站根节点的 URL)。通过对 4 组使用不同样例集 的爬虫计算平均得分,得到 BFC 性能得分。 

2.2 效果展示 

本 文 选 取 传 统 聚 焦 爬 虫(FC)作 为 基 线 算 法 进 行 对 比。出于公平性考虑,FC 所需分类器基于样例网页库的少 量正样本,采用 KNN 算法获得。本文提出的自举聚焦爬虫 (BFC)与基线算法 FC 在高校历史录取分数爬取任务中的 表现对比如表 1 所示。 1 BFC FC 在录取分数爬取任务中表现对比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的准确率(Precision)比传统方法 FC 低很多,其原因是 FC 爬取页面数量较少,以极低的召回 率(Recall)为代价获得了较高准确率。然而,在爬虫实际 使用过程中,召回率更为重要,因为要尽可能全面地收集 所需信息,而在自动筛选环节一旦遗漏相关信息,就很难 再找到目标网页。在召回率方面,BFC 的表现远好于 FC。 综合准确率和召回率的指标 F1-Score 也显示 BFC 的性能 优于 FC。 爬取部分结果如

3 所示。图中 name 列输出爬取站 点,url 列输出任务相关页面网址,path 列输出从网站根节 点到页面的路径,score是该页面相关性得分

image.png

参考文献: 

1DISHENG QLUCIANO BXIN Let al. Dexterlarge-scale discov⁃ ery and extraction of product specifications on the webC. Proceed⁃ ings of the VLDB Endowment20152194-2205. 

2XUEZHI WCONG YSIMON Bet al. Relevant document discovery for fact-checking articlesC. In Companion Proceedings of the Web Conference2018525-533. 

3KARANE VLUCIANO BALTIGRAN S D Set al. Finding seeds to bootstrap focused crawlersC. In The World Wide Web Confer⁃ ence2016449-474. 

4LUCIANO BSRINIVAS BVIVEK K R S. Crawling back and forthusing back and out links to locate bilingual sitesC. In Proceedings of 5th International Joint Conference on Natural Language Processing2011429-437. 

5TSUYOSHI M. Finding related web pages based on connectivity infor⁃ mation from a search engineC. In WWW Posters2001. 

6LUCIANO B. Harvesting forum pages from seed sitesC. In Interna⁃ tional Conference on Web Engineering2017457-468. 

7MCCALLUM ANIGAM KRENNIE Jet al. A machine learning ap⁃ proach to building domain-specific search enginesC. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli⁃ gence1999662-667. 

8MICHAEL HMICHAL JYOELLE S Met al. The shark-search al⁃ gorithm. An applicationtailored Web site mappingJ. Computer Networks & Isdn Systems1998301-7):317-326. 9BERGMARK DLAGOZE CSBITYAKOV A. Focused crawlstun⁃ nelingand digital libraries C. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar⁃ ies2002. 10MARISTELLA ACOSTANTINO T. Research and Advanced Tech⁃ nology of digital librariesM. Springer Berlin Heidelberg200291-106. 

11] 叶勤勇. 基于 URL 规则的聚焦爬虫及其应用[D. 杭州:浙江大 学,2007 

12BRA P M E DPOST R D J. Information retrieval in the World-Wide Webmaking client-based searching feasibleJ. Computer Net⁃ works & Isdn Systems1994272):183-192. 

13KIEN PAECIO SJULIANA F. Bootstrapping domain-specifific con⁃ tent discovery on the WebC. In The World Wide Web Conference20191476-1486. 

14] 傅向华,冯博琴,马兆丰,等. 可在线增量自学习的聚焦爬行方法 [J. 西安交通大学学报,2004386):599-602. 

15] 刘国靖,康丽,罗长寿. 基于遗传算法的主题爬虫策略[J. 计算机 应用,20072712):172-174. 

16] 曾广朴,范会联. 基于遗传算法的聚焦爬虫搜索策略[J. 计算机 工程,20103611):167-169. 

17] 童亚拉. 自适应动态演化粒子群算法在 Web 主题信息搜索中的应 用[J. 武汉大学学报(信息科学版),20083312):1296-1299. 

18] 贺晟,程家兴,蔡欣宝. 基于模拟退火算法的主题爬虫[J. 计算机 技术与发展,20091912):55-58. 

19] 宋海洋,刘晓然,钱海俊. 一种新的主题网络爬虫爬行策略[J. 计 算机应用与软件,20112811):264-267. 

20] 谢志妮. 一种新的基于概念树的主题网络爬虫方法[J. 计算机与 现代化,20101764):103-106. 

21] 左薇,张熹,董红娟,等. 主题网络爬虫研究综述[J. 软件导刊, 2020192):278-281. 

22] 韩 瑞 昕. 基 于 时 效 性 的 爬 虫 调 度[J. 软 件 导 刊 ,2020191): 108-112.

。转载请注明来源地址:黑帽SEO http://www.heimao.wiki 专注于SEO培训,快速排名
黑帽WiKi_黑帽百科(www.heimao.wiki),8年黑帽SEO优化技术,黑帽seo快速排名,黑帽seo技术培训学习,黑帽SEO快速排名程序、泛目录寄生虫技术,赠送免费黑帽SEO视频教程

黑帽SEO技术,网站快速排名,蜘蛛池加速收录,目录程序定制)

扫一下添加微信:



版权声明:本文为 “黑帽百科” 原创文章,转载请附上原文出处链接及本声明;

原文链接:https://www.heimao.wiki/post/48718.html

标签:

发表评论:

关于我们
黑帽百科:黑帽seo百科,黑帽seo技术学习培训分享,黑帽SEO快排程序分享,定制。 SEO快速排名收录学习 老师qq:25496334
扫码关注
联系方式
全国服务热线:
地址:新加坡 - 市中心(Singapore City)乌节路
Email:hack66666@foxamil.com
邮编:
Copyright Your 黑帽百科.|网站地图.Some Rights Reserved.