爬虫入门笔记
http:1.wss-websocket,如弹幕; 2.ssl-安全套接层 tls-设备指纹管理; 3.https
📌 爬虫的构成
- 找接口
- 确定请求的方法:get/post
-
构建请求头
加密内容类型有:
1)签名认证(时效性参数),包括:头部参数,防止频繁请求、cookie参数
2)数据加密
3)验证码
-
检索是否存在加密
-
发送
📌 快速找接口的方式
1.切换分页; 2.切换筛选条件
📌 爬虫验证
-
ip代理?
-
JS混淆,可以通过某些网站还原
-
xhr断点验证:
3.1.复制路径,
源代码Tab-XHR/提取断点
,添加断点,触发该请求3.2.调试,直至找到send方法
3.3.根据js语法分析加密前后涉及的方法、内容
npm install crypto-js?
3.4.PyExecJS2编译、调用js文件
📌 常见的反爬技术
- User-Agent识别:网站通过检查请求头该字段,判断请求是否来自爬虫程序。
- IP封禁
- 验证码
- 动态页面:通过JS等技术生成的动态页面,使页面内容难以解析。
- 数据接口限制:网站限制接口的访问频率、次数等,防止爬虫程序对数据进行大量抓取。
- token-用于身份验证和授权的令牌,通常是随机生成的字符串。
相对的就出现代理IP、随机User-Agent、模拟人类行为等,来降低被识别和拦截的概率。