跳转至

whm

爬虫入门笔记

whm

Home
Python
Python
- 数据类型
  数据类型
- 数据结构
- 算法
  算法
- 面向对象
- 内置函数
- 内置库
  内置库
- 闭包&装饰器&柯里化
- 自动化
  自动化
  - 设计
  - unittest
  - pytest
    pytest
    
    测试夹具
    
    pytest.main
    
    pytest.ini
  - selenium
  - app自动化
    app自动化
    
    airtest
    
    appium
    
    uiautomator2
    
    wda
  - mitmproxy
  - requests
  - Playwright
    Playwright
    
    001_basic
    
    002_po
- Web
  Web
  - Flask
  - Django
    Django
    
    ORM
    
    DTL模版引擎
    
    Cookie与Session
- Pandas
  Pandas
  - Day1
  - Day2
  - Day3
  - Day4
  - Day5
- 其他
  其他
  - Python安装路径迁移
  - mkdocs使用记录
  - docx
  - excel
  - 爬虫入门笔记爬虫入门笔记
    目录
    
    📌 爬虫的构成
    
    📌 快速找接口的方式
    
    📌 爬虫验证
    
    📌 常见的反爬技术
  - 编程规范
  - 垃圾回收机制
Java
Java
- Spring Boot
  Spring Boot
  - 组件
- leetcode热题100
  leetcode热题100
  - 哈希
  - 双指针
  - 普通数组
  - 二分查找
  - 栈
- JUnit 5
- Cucumber
- JVMGC
Vue
Vue
- 基础
数据库
数据库
- Oracle
  Oracle
- Mysql
- Redis
- ElasticSearch
Shell
Shell
- 复习
- git
- timestamp
- regex.sh
- k8s
  k8s
- Docker
  Docker
测试
测试
- 软件工程
- 测试类型
  测试类型
  - app测试
  - 性能测试
    性能测试
    
    性能测试
    
    压测工具
    压测工具
    
    JMeter
    
    Locust
    
    Arthas
    
    监控工具
    监控工具
    
    监控平台
    
    nmon
    
    监控服务器
    
    监控Mysql
    
    性能调优
    性能调优
    
    高性能
    
    高可用
    
    Nginx
    
    Tomcat
  - 安全测试
- 测试工具
  测试工具
  - Fiddler
  - Charles
  - Postman
  - Apifox
Hadoop
Hadoop
- Hadoop生态
- Scala
  Scala
  - Day01
  - Day02
  - Day03
  - Day04
其他
其他

爬虫入门笔记

http：1.wss-websocket，如弹幕； 2.ssl-安全套接层 tls-设备指纹管理； 3.https

📌 爬虫的构成

找接口
确定请求的方法：get/post
构建请求头

加密内容类型有：

1）签名认证（时效性参数），包括：头部参数，防止频繁请求、cookie参数

2）数据加密

3）验证码
检索是否存在加密
发送

📌 快速找接口的方式

1.切换分页； 2.切换筛选条件

Tip

请求-Cookie-HttpOnly，一般代表由服务器返回。

请求-右键复制为cURL，在curlconverter进行格式化生成py代码。

📌 爬虫验证

ip代理？
JS混淆，可以通过某些网站还原
xhr断点验证：

3.1.复制路径，源代码Tab-XHR/提取断点，添加断点，触发该请求

3.2.调试，直至找到send方法

3.3.根据js语法分析加密前后涉及的方法、内容

npm install crypto-js？

3.4.PyExecJS2编译、调用js文件

📌 常见的反爬技术

User-Agent识别：网站通过检查请求头该字段，判断请求是否来自爬虫程序。
IP封禁
验证码
动态页面：通过JS等技术生成的动态页面，使页面内容难以解析。
数据接口限制：网站限制接口的访问频率、次数等，防止爬虫程序对数据进行大量抓取。
token-用于身份验证和授权的令牌，通常是随机生成的字符串。

相对的就出现代理IP、随机User-Agent、模拟人类行为等，来降低被识别和拦截的概率。