Python爬虫——如何使用urllib的HTTP基本库

Python爬虫——如何使用urllib的HTTP基本库

bicheng/2026/5/9 13:37:19/文章来源:https://blog.csdn.net/C1356498720/article/details/138871601

怎样通过 urllib库发送 HTTP 请求？

urllib库主要由四个模块组成:

urllib.request 打开和读取 URL
urllib.error 包含 urllib.request 抛出的异常
urllib.parse 用于解析 URL
urllib.robotparser 用于解析 robots.txt 文件

1. 使用`urllib.parse`解析URL

使用urlparse()分段URL

在这里，我们用urlparse()函数构建了一个实例对象（ParseResult类型），并将其赋值给result，以便调用。

事实上，ParseResult类型对象包含6个部分：
- scheme,代表协议，通常在"://"前面，这里即http
- netloc,代表域名，通常在第一个"/"前面，这里即docs.python.org:80
- path,代表访问路径，通常在域名之后，这里即/3/library/urllib.parse.html
- params,代表参数，通常在"?"之前，这里不存在
- query,代表查询条件，通常在"?"之后，这里也不存在
- fragment,代表瞄点，通常在"#"之后，用于直接定位页面内部的下拉位置，这里即url-parsing
使用urlunparse()构造URL

事实上，在urllib.parse中，解析URL的方法不仅有urlparse()函数，还有urlsplit()等；构造URL的方法不仅有urlunparse()函数，还有urlunsplit和urlencode()等。

2. 使用`urllib.request`打开 URL，模拟发送请求

使用urllib.request.urlopen函数发送HTTP请求，构造对象

urllib.request.urlopen 函数构造一个接受请求的实例对象（HTTPResponse类型），并将其赋值给response变量,以便之后使用。

read()方法可以得到返回的网页内容。事实上，HTTPResponse类型的对象，不仅可以调用read()和getheaders()等方法，还可以调用status和msg等属性来查看请求发送后返回的一系列信息。
通过Request类灵活配置参数，构建请求信息对象

这里我们依然使用urlopen()方法来发送HTTP请求，但是传递的不再是单纯的URL，而是一个Request类型的对象。通过集合各种参数，将其独立成一个对象，可以更加丰富和灵活地配置参数。

这里的headers即为请求头，method即为请求方法
使用Handler处理器进行高级操作（以Cookies处理为例）

HTTPCookieProcessor是urllib.request模块里用于处理Cookie的一个类。值得注意的是这里打开链接的不再是request.urlopen()函数，而是用Opener对象的open()方法来发出请求。

3. 使用`urllib.error`捕捉请求错误，进行异常处理

使用URLError类捕捉URL异常
- 在这里如果发生网页不存在等请求异常，我们就可以通过URLError捕捉异常，从而避免程序的异常终止
- 使用HTTPError类捕捉HTTP请求错误

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/bicheng/12659.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【3dmax笔记】022：文件合并、导入、导出

【3dmax笔记】022：文件合并、导入、导出

文章目录一、合并二、导入三、导出四、注意事项一、合并只能合并 max 文件（高版本能够合并低版本模型，低版本不能合并高版本的模型）。点击【文件】→【导入】→【合并】：选择要合并的文件，后缀名为3dmax默认的格式，max文件。二、导入点击【文件】→【导入】→【导…

阅读更多...

等保测评介绍

等保测评介绍

等保测评，全称为信息安全等级保护测评，是一种依据国家信息安全等级保护制度要求，对信息系统实施安全等级保护管理的过程。这一过程包括对信息系统的全面安全风险评估，目的是发现潜在的安全隐患，并提出相应的安全改进措…

阅读更多...

【ZYNQ】Vivado 封装自定义 IP

【ZYNQ】Vivado 封装自定义 IP

在 FPGA 开发设计中，IP 核的使用通常是不可缺少的。FPGA IP 核是指一些已经过验证的、可重用的模块或者组件，可以帮助构建更加复杂的系统。本文主要介绍如何使用 Vivado 创建与封装用户自定义 IP 核，并使用创建的 IP 核进行串口回环测试。目…

阅读更多...

为什么只有const-static-枚举/整型才可以类内初始化

为什么只有const-static-枚举/整型才可以类内初始化

在C中，静态数据成员（static member）是类的所有对象共享的一个变量。由于它们不是与类的任何特定对象实例相关联的，因此不能在类的构造函数中初始化它们。静态数据成员的初始化必须在类定义之外进行，除非它们满足特定的…

阅读更多...

谷歌I/O 2024大会全面硬刚OpenAI

谷歌I/O 2024大会全面硬刚OpenAI

🦉 AI新闻 🚀 谷歌发布升级版Gemini机器人竞争OpenAI ChatGPT-4 摘要：谷歌展示了升级版的 Gemini 聊天机器人，其支持实时处理视频和语音输入，并准确回答问题。此次发布时机与 OpenAI 公布 ChatGPT-4o 新模型几乎同步…

阅读更多...

pycharm导入项目，创建虚拟环境，下载依赖

pycharm导入项目，创建虚拟环境，下载依赖

1、安装conda，此处省略 2、管理员身份打开CMD命令行，创建虚拟环境 conda create --name env_name python3.7 -y 其中，env_name替换为自己想要的环境名字，python3.7表示指定python版本为3.7，-y意味着遇到询问直接回复…

阅读更多...

Redis经典问题：BigKey问题

Redis经典问题：BigKey问题

大家好，我是小米，今天来和大家聊聊Redis中的一个经典问题：BigKey问题。在互联网系统中，我们经常需要保存大量的用户数据，比如用户的个人信息、粉丝列表、发表的微博内容等等。这些数据往往会被存储在Redis这样的缓存系统中，以提高系统的性能和响应速度。但是，在处理这些…

阅读更多...

什么样的开放式耳机好用舒服？五款高人气质量绝佳产品力荐！

什么样的开放式耳机好用舒服？五款高人气质量绝佳产品力荐！

随着人们越来越注重个人的身体健康问题，掀起了一股运动浪潮，现在大家都会喜欢跑跑步，运动一下使自己的身体更好，那么在运动时候如果能有音乐听的话，人们的运动状态就能达到更好的水平。鉴于传统入耳式耳机给用户带来…

阅读更多...

k8s源码编译失败：Makefile:1: *** 缺失分隔符。停止。

k8s源码编译失败：Makefile:1: *** 缺失分隔符。停止。

目录问题解决更换Arch或系统问题解决编译k8s源码的kubelet时执行make失败：Makefile:1: *** 缺失分隔符。停止。首先，查看文件内容 # cat Makefile build/root/Makefile 修改Makefile，给第一行前增加include，如下&…

阅读更多...

基于梯度流的扩散映射卡尔曼滤波算法的信号预处理matlab仿真

基于梯度流的扩散映射卡尔曼滤波算法的信号预处理matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 扩散映射（Diffusion Maps） 4.2 卡尔曼滤波 4.3 基于梯度流的扩散映射卡尔曼滤波（GFDMKF） 5.完整程序 1.程序功能描述基于梯度流的扩散…

阅读更多...

一文全解聚碳酸酯PC材料在汽车灯罩制造中的诸多显著优势！汽车车灯的灯罩如果破损破裂破洞了要怎么修复？

一文全解聚碳酸酯PC材料在汽车灯罩制造中的诸多显著优势！汽车车灯的灯罩如果破损破裂破洞了要怎么修复？

聚碳酸酯PC材料在汽车灯罩制造中具有诸多显著优势。除了优异的抗冲击性、透明性、耐热性和稳定性外，还有以下一些重要优势： 出色的光学性能：PC材料的光学性能优异，能够确保灯罩内的光源均匀分布，减少光斑和眩光&#…

阅读更多...

现代R语言【Tidyverse、Tidymodel】的机器学习

现代R语言【Tidyverse、Tidymodel】的机器学习

机器学习已经成为继理论、实验和数值计算之后的科研“第四范式”，是发现新规律，总结和分析实验结果的利器。机器学习涉及的理论和方法繁多，编程相当复杂，一直是阻碍机器学习大范围应用的主要困难之一，由此诞生了Python…

阅读更多...

从0到1，百亿级任务调度平台的架构与实现

从0到1，百亿级任务调度平台的架构与实现

尼恩：百亿级海量任务调度平台起源在40岁老架构师尼恩的读者交流群(50)中，经常性的指导小伙伴们改造简历。经过尼恩的改造之后，很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会&#x…

阅读更多...

软件库V1.5版本iApp源码V3

软件库V1.5版本iApp源码V3

软件库V1.5版本iApp源码V3 配置教程在【mian.iyu】的【载入事件】更新内容： 1、分类对接蓝奏（免费，付费，会员，广告），支持蓝奏文件描述设置为简介（改动：首页.iyu&#…

阅读更多...

Pikachu 靶场 SQL 注入通关解析

Pikachu 靶场 SQL 注入通关解析

前言 Pikachu靶场是一种常见的网络安全训练平台，用于模拟真实世界中的网络攻击和防御场景。它提供了一系列的实验室环境，供安全专业人士、学生和爱好者练习和测试他们的技能。 Pikachu靶场的目的是帮助用户了解和掌握网络攻击的原理和技术，…

阅读更多...

【美团面试2024/05/14】前端面试题滑动窗口

【美团面试2024/05/14】前端面试题滑动窗口

一、题目描述设有一字符串序列 s，确定该序列中最长的无重复字母的子序列，并返回其长度。备注 0 < s.length < 5 * 104 s 由英文字母、数字、符号和空格组成示例1 输入 s "abcabcbb" 输出 3 二、原题链接这道题在LeetCode上的原题链…

阅读更多...

场景文本检测识别学习 day09（SSM、S4、Mamba、S6）

场景文本检测识别学习 day09（SSM、S4、Mamba、S6）

SSM（State Space Model） SSM是一个针对连续函数的模型，即输入是连续函数，输出也是连续函数。上图为状态方程和输出方程，其中h(t)是当前时刻的状态，x(t)是当前时刻的输入，h’(t)是下一个时刻的状…

阅读更多...

训练集、测试集与验证集：机器学习模型评估的基石

训练集、测试集与验证集：机器学习模型评估的基石

在机器学习中，为了评估模型的性能，我们通常会将数据集划分为训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）。这种划分有助于我们更好地理解模型在不同数据上的表…

阅读更多...

【Spring】AbstractApplicationContext源码解读

【Spring】AbstractApplicationContext源码解读

这个类源码一打开，我滴妈有一种我不卷了，我送外卖去了的感觉1500行但是还是对你自己说坚持坚持再坚持。35岁再送外卖也不迟。这里我们先看这个抽象类的注释： Abstract implementation of the ApplicationContext interface. Doesnt man…

阅读更多...

Redis实现优惠券秒杀功能

Redis实现优惠券秒杀功能

Redis实现优惠券秒杀功能全局唯一ID实现优惠券秒杀下单实现一人一单分布式锁Redis秒杀优化Redis消息队列全局唯一ID 订单表使用数据库自增ID的缺点： 1、ID规律性太明显。 2、受单表数据量限制，需要分库分表时数据库自增ID失效。全局ID生成器&#xf…

阅读更多...

最新文章