跳转至

爬虫入门笔记

http:1.wss-websocket,如弹幕; 2.ssl-安全套接层 tls-设备指纹管理; 3.https

📌 爬虫的构成

  1. 找接口
  2. 确定请求的方法:get/post
  3. 构建请求头

    加密内容类型有:

    1)签名认证(时效性参数),包括:头部参数,防止频繁请求、cookie参数

    2)数据加密

    3)验证码

  4. 检索是否存在加密

  5. 发送

📌 快速找接口的方式

1.切换分页; 2.切换筛选条件

Tip

请求-Cookie-HttpOnly,一般代表由服务器返回。

请求-右键复制为cURL,在curlconverter进行格式化生成py代码。

📌 爬虫验证

  1. ip代理?

  2. JS混淆,可以通过某些网站还原

  3. xhr断点验证:

    3.1.复制路径,源代码Tab-XHR/提取断点,添加断点,触发该请求

    3.2.调试,直至找到send方法

    3.3.根据js语法分析加密前后涉及的方法、内容

    npm install crypto-js?

    3.4.PyExecJS2编译、调用js文件

📌 常见的反爬技术

  • User-Agent识别:网站通过检查请求头该字段,判断请求是否来自爬虫程序。
  • IP封禁
  • 验证码
  • 动态页面:通过JS等技术生成的动态页面,使页面内容难以解析。
  • 数据接口限制:网站限制接口的访问频率、次数等,防止爬虫程序对数据进行大量抓取。
  • token-用于身份验证和授权的令牌,通常是随机生成的字符串。

相对的就出现代理IP、随机User-Agent、模拟人类行为等,来降低被识别和拦截的概率。