【爬虫开发】爬虫开发从0到1全知识教程第8篇：反爬与反反爬,反爬与反反爬【附代码文档】

pingmian/2026/7/26 14:09:21/文章来源:href="https://blog.51cto.com/u_16958431/14126062" target="_blank"

教程全知识点简介：1.Mongodb数据库包括介绍、mongodb简单使用（mongodb服务端启动、启动mongodb客户端进入mongo shell）。2. scrapy爬虫框架涵盖 ip使用、启动爬虫、停止爬虫、scrapyd webapi。3. Gerapy包含通过Gerapy配置管理scrapy项目。4. appium移动端抓取涉及appium自动控制移动设备、appium-python-client模块安装、初始化获取移动设备分辨率、定位元素提取文本方法、控制抖音app滑动、自动滑动代码整理。5. 爬虫概述包括爬虫概念、爬虫基础。6. http协议复习涵盖http及https概念区别、爬虫关注的请求头响应头、常见响应状态码、浏览器运行过程。7. requests模块包含requests发送post请求、POST请求练习、requests.session状态保持、课堂测试。8. 数据提取概述涉及响应内容分类、xml认识、html区别、常用数据解析方法。9. 数据提取-jsonpath模块包括jsonpath模块使用场景。10. 数据提取-lxml模块涵盖lxml模块xpath语法、谷歌浏览器xpath helper插件安装使用、xpath节点关系、xpath语法基础节点选择、xpath定位节点提取属性文本内容语法、语法练习、lxml模块安装使用示例。11. Selenium课程包含获取当前标签页cookie信息、cookie转化为字典、删除cookie、页面等待。12. 反爬与反反爬涵盖常见反爬手段解决思路、服务器反爬原因、服务器反爬虫类型、反爬虫概念、反爬三个方向、基于身份识别反爬（session发送rKey获取登录信息、密码加密、用户名密码准备、js2py生成js执行环境）。

<h3>📚📚 整个项目完整代码和资料传送门 📚📚</h3>

👉🍅 https://gitee.com/yinuo112/Backend/blob/master/爬虫/爬虫开发从0到1全知识教程/note.md

反爬与反反爬

本阶段主要学习爬虫的反爬及应对方法。

JS的解析

学习目标：

了解定位js的方法
了解添加断点观察js的执行过程的方法
应用 js2py获取js的方法

1 确定js的位置

对于前面人人网的案例，我们知道了url地址中有部分参数，但是参数是如何生成的呢？

毫无疑问，参数肯定是js生成的，那么如何获取这些参数的规律呢？通过下面的学习来了解

1.1 观察按钮的绑定js事件

通过点击按钮，然后点击Event Listener，部分网站可以找到绑定的事件，对应的，只需要点击即可跳转到js的位置

1.2 通过search all file 来搜索

部分网站的按钮可能并没有绑定js事件监听，那么这个时候可以通过搜索请求中的关键字来找到js的位置，比如livecell

点击美化输出选项

可以继续在其中搜索关键字

2 观察js的执行过程

找到js的位置之后，我们可以来通过观察js的位置，找到js具体在如何执行，后续我们可以通过python程序来模拟js的执行，或者是使用类似js2py直接把js代码转化为python程序去执行

观察js的执行过程最简单的方式是添加断点

添加断点的方式：在左边行号点击即可添加，对应的右边BreakPoints中会出现现有的所有断点

添加断点之后继续点击登录，每次程序在断点位置都会停止，通过如果该行有变量产生，都会把变量的结果展示在Scoope中

在上图的右上角有1，2，3三个功能，分别表示：

- 1：继续执行到下一个断点
- 2：进入调用的函数中
- 3：从调用的函数中跳出来

3 js2py的使用

在知道了js如何生成我们想要的数据之后，那么接下来我们就需要使用程序获取js执行之后的结果了

3.1 js2py的介绍

js2py是一个js的翻译工具，也是一个通过纯python实现的js的解释器，github上源码与示例

3.2 js的执行思路

js的执行方式大致分为两种：

在了解了js内容和执行顺序之后，通过python来完成js的执行过程，得到结果
在了解了js内容和执行顺序之后，使用类似js2py的模块来执js代码，得到结果

但是在使用python程序实现js的执行时候，需要观察的js的每一个步骤，非常麻烦，所以更多的时候我们会选择使用类似js2py的模块去执行js，接下来我们来使用js2py实现人人网登录参数的获取

3.3 具体的实现

定位进行登录js代码

formSubmit: function() {var e, t = {};$(".login").addEventListener("click", function() {t.phoneNum = $(".phonenum").value,t.password = $(".password").value,e = loginValidate(t),t.c1 = c1 || 0,e.flag ? ajaxFunc("get", "http://activity.renren.com/livecell/rKey", "", function(e) {var n = JSON.parse(e).data;if (0 == n.code) {t.password = t.password.split("").reverse().join(""),setMaxDigits(130);var o = new RSAKeyPair(n.e,"",n.n), r = encryptedString(o, t.password);t.password = r,t.rKey = n.rkey} elsetoast("公钥获取失败"),t.rKey = "";ajaxFunc("post", "http://activity.renren.com/livecell/ajax/clog", t, function(e) {var e = JSON.parse(e).logInfo;0 == e.code ? location.href = localStorage.getItem("url") || "" : toast(e.msg || "登录出错")})}) : toast(e.msg)})}

从代码中我们知道:

我们要登录需要对密码进行加密和获取rkey字段的值
rkey字段的值我们直接发送请求rkey请求就可以获得
密码是先反转然后使用RSA进行加密, js代码很复杂, 我们希望能通过在python中执行js来实现

实现思路:

使用session发送rKey获取登录需要信息
- url: http://activity.renren.com/livecell/rKey
- 方法: get
根据获取信息对密码进行加密 2.1 准备用户名和密码

2.2 使用js2py生成js的执行环境:context

2.3 拷贝使用到js文件的内容到本项目中

2.4 读取js文件的内容,使用context来执行它们

2.5 向context环境中添加需要数据

2.6 使用context执行加密密码的js字符串

2.7 通过context获取加密后密码信息

使用session发送登录请求
- URL: http://activity.renren.com/livecell/ajax/clog
- 请求方法: POST
- 数据:

phoneNum: xxxxxxx password: (加密后生产的) c1: 0 rKey: rkey请求获取的

##### 具体代码需要提前下载几个js文件到本地：
> 
BigInt.jsRSA.jsBarrett.js```python
import requests
import json
import js2py# - 实现思路:#   - 使用session发送rKey获取登录需要信息#     - url: http://activity.renren.com/livecell/rKey#     - 方法: get#  获取session对象session = requests.session()
headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Mobile Safari/537.36","X-Requested-With": "XMLHttpRequest","Content-Type":"application/x-www-form-urlencoded"
}# 设置session的请求头信息session.headers = headersresponse = session.get("http://activity.renren.com/livecell/rKey")# print(response.content.decode())n = json.loads(response.content)['data']#   - 根据获取信息对密码进行加密#     - 准备用户名和密码phoneNum = "131..."
password = "****"#     - 使用js2py生成js的执行环境:contextcontext = js2py.EvalJs()#     - 拷贝使用到js文件的内容到本项目中#     - 读取js文件的内容,使用context来执行它们with open("BigInt.js", 'r', encoding='utf8') as f:context.execute(f.read())with open("RSA.js", 'r', encoding='utf8') as f:context.execute(f.read())
with open("Barrett.js", 'r', encoding='utf8') as f:context.execute(f.read())# - 向context环境中添加需要数据context.t = {'password': password}
context.n = n#     - 执行加密密码的js字符js = '''t.password = t.password.split("").reverse().join(""),setMaxDigits(130);var o = new RSAKeyPair(n.e,"",n.n), r = encryptedString(o, t.password);'''
context.execute(js)# - 通过context获取加密后密码信息# print(context.r)password = context.r#   - 使用session发送登录请求#     - URL: http://activity.renren.com/livecell/ajax/clog#     - 请求方法: POST#     - 数据:#       - phoneNum: 15565280933#       - password: (加密后生产的)#       - c1: 0#       - rKey: rkey请求获取的data = {'phoneNum': '131....','password': password,'c1':0,'rKey':n['rkey']
}# print(session.headers)response = session.post("http://activity.renren.com/livecell/ajax/clog", data=data)
print(response.content.decode())# 访问登录的资源response = session.get("http://activity.renren.com/home#profile")
print(response.content.decode())

小结

通过在chrome中观察元素的绑定事件可以确定js
通过在chrome中search all file 搜索关键字可以确定js的位置
观察js的数据生成过程可以使用添加断点的方式观察
js2py的使用
- 需要准备js的内容
- 生成js的执行环境
- 在执行环境中执行js的字符串，传入数据，获取结果

反爬与反反爬

本阶段主要学习爬虫的反爬及应对方法。

Mongodb的介绍和安装

学习目标

了解非关系型数据库的优势
了解 mongodb的安装

1. mongodb的介绍

1.1 什么是mongodb

mongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。
mongodb 本身提供S端存储数据，即server；也提供C端操作处理（如查询等）数据，即client。

1.2 SQL和NoSQL的主要区别

在SQL中层级关系：数据库>表>数据
而在NoSQL中则是：数据库>集合>文档

1.2.1 数据之间无关联性

SQL中如何需要增加外部关联数据的话，规范化做法是在原表中增加一个外键，关联外部数据表。
NoSQL则可以把外部数据直接放到原数据集中，以提高查询效率。缺点也比较明显，对关联数据做更新时会比较麻烦。
SQL中在一个表中的每条数据的字段是固定的。而NoSQL中的一个集合(表)中的每条文档(数据)的key(字段)可以是互不相同的。

1.2.2 拓展阅读

https://www.cnblogs.com/jeakeven/p/5402095.html

1.3 mongodb作为非关系型数据库相较于关系型数据库的优势

易扩展： NoSQL数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展

大数据量，高性能： NoSQL数据库都具有非常高的读写性能，尤其在大数据量下表现优秀。这得益于它的非关系性，数据库的结构简单

灵活的数据模型： NoSQL无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式。而在关系数据库中，增删字段是一件非常麻烦的事情。如果是非常大数据量的表，增加字段简直就是一个噩梦

2. mongodb的安装

以ubuntu18.04为例

mongodb具有两种安装方式：命令安装或源码安装

2.1 命令安装

在ubuntu中使用apt-get工具安装

sudo apt-get install -y mongodb-org

或参考官方文档 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/

2.2 源码安装

2.2.1 选择相应版本和操作系统并下载

https://www.mongodb.com/download-center/community?jmp=docs

2.2.2 解压

tar -zxvf mongodb-linux-x86_64-ubuntu1804-4.0.3.tgz

2.2.3 移动到/usr/local/目录下

sudo mv -r mongodb-linux-x86_64-ubuntu1804-4.0.3/ /usr/local/mongodb

2.2.4 在shell的初始化脚本.bashrc中添加mongodb可执行文件到环境变量PATH中

a. 进入.bashrc文件中

cd ~
sudo vi .bashrc

b. 在.bashrc文件的最后添加：

export PATH=/usr/local/mongodb/bin:$PATH

3. mongodb的官方文档

https://docs.mongodb.com/manual/introduction/

小结

了解非关系型数据库的优势
- 易扩展
- 高性能
- 灵活的数据字段
了解 mongodb的安装
- sudo apt-get install -y mongodb-org

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/pingmian/93219.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【爬虫开发】爬虫开发从0到1全知识教程第8篇：反爬与反反爬,反爬与反反爬【附代码文档】

教程全知识点简介：1.Mongodb数据库包括介绍、mongodb简单使用（mongodb服务端启动、启动mongodb客户端进入mongo shell）。2. scrapy爬虫框架涵盖 ip使用、启动爬虫、停止爬虫、scrapyd webapi。3. Gerapy包含通过Gerapy配置管理scrapy项目。4. appium移动端抓取涉及appium自动…

iic原理

//IIC发送一个字节 //返回从机有无应答 //1，有应答 //0，无应答 //IIC_SCL=0; //在SCL上升沿时准备好数据，进行传送数据时，拉高拉低SDA，因为传输一个字节，一个SCL脉冲里传输一个位。 //数据传输过程中，数据传输保持稳定（在SCL高电平期间，SDA一直保持稳定，没…

财务人员需要文档智能审核工具推荐

在日常财务工作中，尤其是涉及贸易单证审核、理赔处理、财务对账等业务场景时，财务人员常常面临诸多棘手问题：单据数量庞大且来源分散，涵盖订单、银行回单、提货磅单、交易确认单等多种类型，需人工逐一收集、分类和整理，耗费大量时间和精力。单据数据依赖人工手动录入系统…

GBASE南大通用技术分享：因CPU线程不足导致GBase 8a集群性能慢的一种分析处置方法

南大通用GBase 8a数据库，在磁盘io、cpu使用正常时，集群性能下降，有一种可能是cpu线程不足导致，具体可以收集如下信息进行分析：1、执行show engine express status命令查看引擎状态时，发现有的计算节点Total tasks in groups值高，集群任务执行慢。2、nmon查看该节点的磁盘…

观测云接收 OpenTelemetry Collector 数据最佳实践

OpenTelemetry 简介如果你在做系统运维或开发，建设可观测性必然是近年来一个少不了的课题，同时相信你对 OpenTelemetry 也一定不陌生。OpenTelemetry 提供了一个统一、开放且不受特定厂商限制的标准和工具集，使得我们可以一次性集成 OTel SDK，全面采集应用的指标、日志和链…

免费开源的微信开发框架

GeWe框架 —— 企业级微信机器人开发框架开源引擎内核基于Apache 2.0协议开源模块化架构设计支持热插拔功能扩展原生Java/Go/Python SDK提供类型安全的API接口兼容Spring/Flask等主流框架多轮对话上下文管理支持NLU语义理解插件消息异步处理队列请求参数Header 参数export inte…

Kafka分区数最佳设置

1、结合业务场景和非业务条件那么我们应该如何选择合适的分区数呢？具体的业务具体分析。但是前期我们可以根据这些条件：实际业务场景（消息总量，消息生产或消费频率，要求的吞吐量等）、软件条件、硬件条件、负载情况等，进行大致的评估我们可以设置…

东沃DOWO产品怎么样？好不好？

匠心智造，真芯守护，东沃DOWO是一家全方位的半导体器件制造商及电路保护解决方案服务商，集研发、生产、销售为一体的国家高新技术企业。公司专注于半导体器件的创新设计与制造，产品线丰富，涵盖保护器件（TVS、ESD、TSS、MOV、GDT、PPTC）、二极管（稳压二极管、整流二极管、…

MCP零基础学习（2）：开发环境配置指南

2025全新实战指南：10分钟搭建跨平台MCP开发环境，兼容Python与Node.js双生态一、环境准备：跨平台兼容方案在开始MCP开发前，确保你的系统满足以下条件：💡 避坑提示： Windows用户需启用开发者模式解决长路径问题 macOS需运行 xcode-select --install 安装命令行工具二、核…

Profinet转Ethernet IP网关接入五轴车床上下料机械手控制系统的配置实例

本案例为西门子1200PLC借助PROFINET转EtherNet/IP网关与搬运机器人进行连接的配置案例。所需设备包括：西门子1200PLC、Profinet转EtherNet/IP网关以及发那科（Fanuc）机器人。开启在工业自动化控制领域广泛应用、功能强大且专业的西门子博图配置软件。待软件界面准备妥当后，导…

Modbus转Profinet网关与西门子PLC的互联配置案例：用于永宏品牌变频器的控制实现

本案例通过Profinet转ModbusRTU网关实现西门子S71200PLC对永宏FB系列变频器的远程控制与状态监控。系统主要包含以下组件：主控制器西门子S71200-CPU1214C发送控制指令并接收变频器状态数据稳联技术协议转换网关工业级Profinet转ModbusRTU网关WL-ABC3010实现Profinet与ModbusRT…

Profinet转Ethernet IP网关接入五轴车床上下料机械手控制系统的配置实例

Modbus转Profinet网关与西门子PLC的互联配置案例：用于永宏品牌变频器的控制实现

巧妙实现Ethercat转Profinet协议网关匹配光伏电站

巧妙实现Ethercat转Profinet协议网关匹配光伏电站在太阳能光伏发电站的智能化控制领域，一项创新性的技术集成方案正逐步革新电站的运行模式。该方案融合了采用EtherCAT协议的倍福PLC与采用PROFINET协议的西门子PLC，通过稳联技术WL-PN-ECAT网关实现了两大异构协议系统间的数据…

邀您参与 “直通乌镇” Spring AI Alibaba 开源竞技挑战赛！

“直通乌镇”全球互联网大赛作为世界互联网大会乌镇峰会的重要活动之一，2025 年重磅增设开源赛道，聚焦前沿技术生态建设。大赛鼓励全球开发者围绕开源项目的真实问题开展开发协作，并基于太乙平台自动量化代码贡献值，并直接转化为创新奖金。👉如何有效参赛？大赛报名页面 …

邀您参与 “直通乌镇” Spring AI Alibaba 开源竞技挑战赛！

邀您参与 “直通乌镇” Spring AI Alibaba 开源竞技挑战赛！

直播美颜SDK深度解析：人脸美型算法的原理与优化方案

在直播场景中，美颜SDK不仅是一个锦上添花的工具，更是提升用户留存、塑造品牌形象的核心。而在美颜的众多功能中，“人脸美型”一直是最直击用户体验的关键环节。今天，小编将从人脸美型算法的技术原理、核心优化方案以及在直播美颜SDK中的应用落地三个维度进行深度解析，帮助…

AI一键抠图软件--Digiarty.AIArty.Image.Matting

软件介绍（文末获取）今天继续来给大家分享一款堪称神器的 Ai 智能抠图工具，堪称发丝级抠图，是一款功能强大的 AI 图像抠图和背景处理软件软件功能智能一键抠图背景处理移除与替换效果应用高精度 Alpha 抠图批量处理手动微调图像增强支持多种格式软件截图抠出来的图片可以说是…

Razor编程中@符号的全面解析与深度应用指南

文章目录第一章：Razor基础与@符号概述1.1 Razor视图引擎简介1.2 @符号的核心作用1.3 基本环境配置第二章：基础输出与表达式2.1 简单变量输出2.2 表达式输出2.3 显式表达式与隐式表达式2.4 HTML编码第三章：代码块与控制结构3.1 多行代码块3.2 条件语句if语句switch语句3.3 循…

【爬虫开发】爬虫开发从0到1全知识教程第8篇：反爬与反反爬,反爬与反反爬【附代码文档】

👉🍅 https://gitee.com/yinuo112/Backend/blob/master/爬虫/爬虫开发从0到1全知识教程/note.md

反爬与反反爬

JS的解析

学习目标：

1 确定js的位置

1.1 观察按钮的绑定js事件

1.2 通过search all file 来搜索

2 观察js的执行过程

3 js2py的使用

3.1 js2py的介绍

3.2 js的执行思路

3.3 具体的实现

从代码中我们知道:

实现思路:

小结

反爬与反反爬

Mongodb的介绍和安装

学习目标

1. mongodb的介绍

1.1 什么是mongodb

1.2 SQL和NoSQL的主要区别

1.2.1 数据之间无关联性

1.2.2 拓展阅读

1.3 mongodb作为非关系型数据库相较于关系型数据库的优势

2. mongodb的安装

2.1 命令安装

2.2 源码安装

2.2.1 选择相应版本和操作系统并下载

2.2.2 解压

2.2.3 移动到/usr/local/目录下

2.2.4 在shell的初始化脚本.bashrc中添加mongodb可执行文件到环境变量PATH中

3. mongodb的官方文档

小结

相关文章