网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源,很多大型的网络搜索引擎系统都是基于Web数据采集的搜索引擎系统,由此可见Web网络爬虫在搜索引擎中的重要性。
但是也存在着很多恶意爬虫,威胁网站安全。
1.核心文本被爬
网站的核心文本可能在几小时甚至几分钟内就被恶意爬虫抓取并悄无声息的复制到别的网站。核心内容被复制会极大影响网站和网页本身在搜索引擎上的排名,低排名会导致访问量降低和销量、广告收益降低的恶性循环。
在内容为王、用户粘性不高的今天,核心内容很大程度上会影响网站在用户心目中的价值。若网站以文本为商品作为盈利点,那恶意爬虫更是影响 KPI 的罪魁祸首。
2.商品价格被爬
价格爬虫的成因有两种,一是网站竞争对手刻意爬取商品详情和价格后进行同类产品线和价格的研究。
比如某 APP 上线新的租车服务前,会爬取所有竞品 APP 中的车型详情及定价策略,为新服务上线打下价格优势。羊毛党们试图搜寻低价商品信息或在营销大促前提前获取情报寻找套利的可能
3.注册用户被扫描
如果在网站的注册页面输入一个已注册过的号码,通常会看到“该用户已注册”的提示,这一信息也会在请求的 response 中显示,一些网站的短信接口也有类似逻辑,注册用户和非注册用户返回的字段和枚举值会有不同。利用这一业务逻辑,恶意爬虫通过各类社工库拿到一批手机号后可以在短时内验证这批号码是否为某一网站的注册用户。
如何防范网络爬虫恶意爬取网站信息?
推荐可以使用GOODWAF中的防爬虫功能,打开GOODWAF管理后台,开启防爬虫功能,就能有效防护爬虫恶意爬取网站信息。
销售
成为合作伙伴 联系销售: 13018982728入门
免费版 付费版 白皮书社区
小红书开发人员
技术资源 Goodwaf Workers支持
支持 Goodwaf 状态 合规性公司
关于Goodwaf 我们的团队 新闻