Oxylabs 认为网络抓取长盛不衰

2022-05-26 12:30 出处:其他 作者:佚名 责任编辑:houxianyong

网络抓取和检索在造就我们今天看到的互联网方面起到了重要的作用。虽然技术、流程和结果仍不为大部分人所知,但事实是,它们已然广泛流行。领先的网络抓取解决方案提供商 Oxylabs 甚至认为,网络抓取将永远“不会过时”,除非发生一些极端的监管变化。

当然,网络抓取在发展过程中也经历过重大的变化,主要是源于互联网日益提高的复杂性。大概很少有人记得上世纪 90 年代的网页极其简单。抓取活动在那时相对容易一些。

同步开始

问起网络抓取的起源故事,大部分人会指向一些相对较新的发明或产品。您很有可能得到众人皆知的答案:Google。它当然是以检索为根基的最成功公司,但远不是第一家。

据我们所知,第一个网络检索应用程序是 1993 年开发的。Matthew Gray 当初构建了一个应用程序,很恰当地命名为“Wanderer”(漫步者),用于发现新网站并估算万维网的规模。Matthew 现在是 Google 的搜索工程总监,这就不足为奇了。

显然,在互联网(更确切地说是万维网)于 1989 年诞生不久之后,网络抓取活动就开始了。短短几年时间,就有人开始收集存储在互联网上的数据了。

当然,这主要是出于好奇和热情。1993 年的互联网很可能没什么财务价值。在网景浏览器(Netscape Navigator)时代,许多网站离商业化还很遥远。

不过,没多久,网络抓取的价值就被发现了。就在同一年,Jump Station 推出了第一款检索驱动的搜索引擎。升级、友商和新技术接踵而至。

当时大部分搜索引擎使用了很初级的抓取来收集网页并建立索引。通常可通过到处堆叠关键字以获得排名。产生这样的问题,是因为缺乏复杂成熟的数据分析手段。

抓取活动中最重要的早期发展可能是 Larry Page 的 PageRank 算法,后来被 Google 采用。这种算法不完全依赖关键词,而入站和出站链接成了网站重要性的衡量标准。

专业万维网

然而,网络抓取在那时并没有真正流行起来。利用数据赚钱的各种搜索引擎和公司是唯一真正从事抓取和检索活动的参与者。在早期发展的大部分历程中,没有理由为其他任何人从事抓取。

随着互联网从备受赞誉的文本文件即网站(TXT-files-as-websites)、Geocities 和 AngelFire 转移到具备支付网关和产品的专业打造网页,商业利益开始崛起。触达新受众和买家的可能性浮现出来。各家公司向数字化转型。

突然之间,监控互联网上的具体网页变得有利可图,互联网上的数据不再只是一堆信息,数据也具备了实用性。分析数据,可以获取利润,也可以做研究。

不过,当时乃至现在仍有一个问题。虽然普通互联网用户在那时会创建极其简单的网站,但做生意就意味着要开展营销,实现销售。各家公司借鉴了常规传统广告的所有最佳实践,并将其转移到网上。这意味着网站要光鲜亮丽,各方面要进行优化。优化后要更加便于查看、浏览和购物。

互联网的专业化潮流催生了一系列网站的创建,而这些网站远比备受赞誉的 Excel 电子表格复杂得多。结果,底层的 HTML 变得更加复杂,这意味着数据提取的难度显著提高了。

大家陷入了一个有意思的两难困境。一方面,互联网成为了超级有价值数据的宝库。另一方面,获取这些数据也变得异常地困难。雪上加霜的是,网站的变化也是日新月异。

专用抓取

因此,抓取活动必须高度专门化、专用化。爬虫和解析器必须针对具体网站来编写。如今许多自行开发的项目仍在沿用相同的流程。

说来也奇怪,许多行业级爬虫都没有达到那样的深度。一些专用爬虫可以处理指定类型的网页。例如,Oxylabs 有 SERP 爬虫 API、电子商务爬虫 API 和网络爬虫 API,这些专用抓取工具分别适用于搜索引擎、电子商务网页和通用网站。

鉴于网页的性质不同,这些区分是有必要的。产品网页的最终目标迥异于搜索引擎网页,这种结构差异是出于实际需要。理论上,随着网页结构差异的扩大,一体化爬虫和解析器的复杂度也会随着提高。由于存在太多的网页类型和变化,要打造始终能胜任的一体化爬虫和解析器,其复杂程度将趋于无穷大。

在现实中,这意味着目前以及可预见的将来都需要专用爬虫和解析器。基于人工智能和机器学习的解决方案有望降低整个流程的难度。Oxylabs 的测试表明,基于机器学习的解析可实现一些颇有前途的成果。

如今,网络抓取永不谢幕

有人可能会说,全世界对数据的需求与日俱增,但这样说稍有误导性。对数据的需求一直都存在,并且永远会存在下去。对于任何活动、企业或其他什么实体来说,能够理解环境是最有价值的事情。

感叹“对数据的需求与日俱增”,无异于看向一面扭曲的镜子。这些所反映的情况当然存在(并且真实),但不是全部。数据一直是企业、研究和政府的根基。哪怕是相对简单的企业也会使用分类账,开具发票和管理库存。

因此,数据一直有着用武之地。随着互联网的出现和数字企业的兴起,所改变的是,地理空间(在某种意义上还有时间)的限制被打破了。如今,企业不需要固定在某个地理位置。

企业在某种意义上获得了解放,并可更好地触达其他市场。另一方面,更多的数据来源变得更具相关性,因为竞争和资源的领域也增加了。因此,数字化加速了对数据的需求。

在过去,没有任何理由与地球另一边的企业进行竞争。关于对方的任何数据可能充其量比较有意思,而往坏处说就是毫无价值。如今,这样的数据至少很有意思,而往好处说则至关重要。

网络抓取就是满足这一需求的途径。现在也没有理由相信这一需求会减速。数字化、新市场的开拓和拥有更多数据的重要性,这些都是紧密联系在一起的。因而,除非出现极端的监管措施或全球大灾难,否则网络抓取将永不谢幕。

网络设备论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品
文章页底部微信二维码