直接对抗反爬?No!谈一谈数据采集前的思路

直接对抗反爬?No!谈一谈数据采集前的思路

作为爬虫小生的你们是否遇到很多情况下,需求紧急,需要短时间对某些目标数据进行采集 ,作为过来人,笔者把我们开发的时候需要注意的问题罗列出来,避免一上来就吭哧吭哧撸代码,一顿操作猛如虎,咔咔一看二百五,以下是在快速完成需求的时候我们得问问自己的一些问题。

对于开始开发前的准备: - 1、采集的是网站还是app?

哪一个更简单(反爬最少)。 - 2、如果是网站,采集的平台是PC端web,还是移动端的web?

同上。 - 3、是否需要登录?

需要需求方提供账号 - 4、是否需要验证码?

叫客户加预算[手动狗头] - 5、什么类型的验证码,是否有接码平台可以直接先顶着?

需要需求方提供打码服务。 - 6、是否存在封ip(限制访问频率)?

需要需求方提供三方ip代理。 - 7、需要登录的是否会根据账号进行限制?

需要需求方提供大量的账号。 - 8、抓包分析,android手机抓不到包?

换苹果试试(可能是最快的方式,当然你要去硬过也行) - 9、网站、app反爬太厉害,短时间搞不定?

试试微信小程序

  • 10、小程序也还是搞不定?

试试快应用(不知道快应用的可以去百度,类似微信小程序的另一个小程序的生态)

  • 11、用fiddler抓包未定位到对应请求? 如果是chrome就开启隐身模式(win下:ctrl+shift+n,mac下:command+shift+n),把最开始请求到最后都抓包,全局搜索关键字定位

  • 12、对于某些目标,可以小程序和app结合进行突破,因为它们可能部分使用的是一样的接口。

  • 13、多使用分析目标的各网站、接口、APP等,会有意想不到的收获。

以上。其他想到的再补充。

防止失联,关注微信公众号:码道工程。

本文作者:小码哥

本文链接:http://www.tnt0.com/archives/6

版权声明:本博客所有文章除特别声明外,均采用CC BY-NC-SA 3.0许可协议。转载请注明出处!

如何在一分钟内写一个爬虫?... <<
0 条评论

请先登陆注册

已登录,注销 取消