使用aiohttp实现高并发爬虫

使用aiohttp来编写一个高并发的爬虫,想法很不错,现实很骨感。这里我们要知道,由于高并发可能会对目标服务器造成压力,请确保遵守目标网站的robots.txt,并合理设置并发量,避免被封IP。

我将通过示例代码,我将并发爬取多个URL,并打印出每个URL的响应状态和内容长度。

在这里插入图片描述

下面是一个使用 aiohttp 实现的高并发爬虫示例,包含详细注释和并发控制:

import asyncio
import aiohttp
from datetime import datetimeasync def fetch_url(session, url, semaphore):"""异步获取单个URL的内容:param session: aiohttp会话对象:param url: 目标URL:param semaphore: 控制并发的信号量"""async with semaphore:  # 限制并发数量try:start_time = datetime.now()async with session.get(url, timeout=10) as response:  # 10秒超时content = await response.text()return {"url": url,"status": response.status,"content_length": len(content),"time": (datetime.now() - start_time).total_seconds()}except Exception as e:return {"url": url,"error": str(e)}async def crawl(urls, max_concurrency=100):"""主爬虫函数:param urls: URL列表:param max_concurrency: 最大并发数"""results = []# 创建信号量控制并发semaphore = asyncio.Semaphore(max_concurrency)# 创建连接池(复用TCP连接)connector = aiohttp.TCPConnector(limit=0)  # 0表示不限制连接池大小async with aiohttp.ClientSession(connector=connector,headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"}) as session:tasks = []for url in urls:task = asyncio.create_task(fetch_url(session, url, semaphore))tasks.append(task)# 等待所有任务完成results = await asyncio.gather(*tasks)return resultsif __name__ == "__main__":# 示例URL列表(实际使用时可替换为真实目标)urls = ["https://httpbin.org/get?q=1","https://httpbin.org/get?q=2","https://httpbin.org/get?q=3","https://httpbin.org/delay/1",  # 模拟延迟响应"https://httpbin.org/status/404","https://invalid.url"  # 测试错误处理] * 5  # 复制5倍生成30个URLprint(f"开始爬取 {len(urls)} 个URL...")# 启动异步主程序start = datetime.now()results = asyncio.run(crawl(urls))elapsed = (datetime.now() - start).total_seconds()# 输出统计信息success = [r for r in results if "error" not in r]print(f"\n完成! 耗时: {elapsed:.2f}秒")print(f"成功: {len(success)} 失败: {len(results)-len(success)}")print(f"平均响应时间: {sum(r['time'] for r in success if 'time' in r)/len(success):.2f}秒")# 输出错误信息示例(可选)errors = [r for r in results if "error" in r]if errors:print("\n错误示例:")for e in errors[:3]:print(f"URL: {e['url']}\n错误: {e['error']}\n")

关键特性说明:

1、高并发控制

  • 使用 asyncio.Semaphore 限制最大并发量(默认100)
  • TCP连接池复用(TCPConnector

2、错误处理

  • 自动捕获请求异常(超时、DNS错误等)
  • 记录错误信息不中断程序

3、性能优化

  • 连接复用减少TCP握手开销
  • 异步I/O避免线程切换成本
  • 超时设置防止阻塞

4、结果分析

  • 统计成功率/失败率
  • 计算平均响应时间
  • 显示错误样本

运行效果:

开始爬取 30 个URL...
完成! 耗时: 1.82秒
成功: 25 失败: 5
平均响应时间: 1.12秒错误示例:
URL: https://invalid.url
错误: Cannot connect to host invalid.url:443 ssl:True...

扩展建议:

1、添加代理支持

async with session.get(url, proxy="http://proxy.com:8080") as response:

2、实现限速

await asyncio.sleep(0.1)  # 每个请求后延迟

3、持久化存储

# 在fetch_url中添加
with open(f"data/{url_hash}.html", "w") as f:f.write(content)

4、动态URL生成

urls = [f"https://example.com/page/{i}" for i in range(1, 1000)]

5、重试机制

for retry in range(3):try:return await fetch()except Exception:await asyncio.sleep(2**retry)

这个爬虫框架可在单机上实现每秒数百个请求的并发能力,但是最终实际性能取决于网络带宽和目标服务器响应速度。所以说想要获得高性能爬虫能力,配套的服务器和带宽一定要足,不然发挥不出其实力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/diannao/91461.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux庖丁解牛】— 信号量ipc管理!

1. 并发编程概念铺垫> 多个执行流【进程】看到同一份资源:共享资源。> 被保护起来的资源叫做临界资源。> 在进程中,涉及临界资源的程序段叫做临界区。【说人话就是程序中访问共享资源的代码】> 什么是互斥:任何时刻,只…

Spring Boot全局异常处理详解

原代码:package com.weiyu.exception;import com.weiyu.pojo.Result; import com.weiyu.utils.ErrorFileResponseUtils; import jakarta.servlet.http.HttpServletRequest; import lombok.extern.slf4j.Slf4j; import org.springframework.http.HttpStatus; import …

FHE技术将彻底改变在线隐私保护方式

1. 在线隐私的简史 互联网刚刚诞生时,所有的内容都是未加密的。人们通过一个特定的地址访问网站,这个地址以“HTTP”开头。当时,这并不是什么大问题,因为人们在线访问的都是内容,而这些内容本身已经是公开的。但随着电…

Cursor配置Java环境、创建Spring Boot项目

一:配置JDK和Maven cursor默认会读取环境变量JAVA_HOME和MAVEN_HOME,如果没有配置去找默认路径~/.m2/settings.xml也可以手动指定:Ctrl Shift P 输入"Preferences:Open User Settings(JSON)"打开settings.json文件,然…

win11添加无线显示器(两个笔记本实现双屏)

前置条件: 两个笔记本要要支持无线显示器,支持蓝牙; 1、自己重装的win11系统,首先根据网上说明进去的时候,红色显示无无线投屏; 2、安装网上操作,查看自己电脑是否支持无线投屏(是支…

【MAC技巧】Bash/Zsh切换失败的故障排除

【MAC技巧】Bash/Zsh切换失败的故障排除 Troubleshooting to Failure " chsh: no changes made" By JacksonML 在Mac电脑中,终端(Terminal)是常用的命令行工具,对开发和运维至关重要。 依照苹果电脑的系统软件迭代,终端中存有B…

卷积神经网络-卷积的分类

卷积的定义卷积是图像处理中最核心的操作之一,其本质是通过卷积核(滤波器)与图像进行滑动窗口计算(像素值乘积之和),实现对图像特征的提取、增强或抑制。一、二维卷积--针对二维矩阵进行处理1.1单通道见得最…

全网首发:使用GIT下载时崩溃退出,是因为机械硬盘

前面有几篇文章,说是GIT下载会退出。开始以为是虚拟机问题。把家里的虚拟机复制到公司,照样崩溃。后来认为是内存不足。昨天在家里下载代码,也崩溃退出。心里觉得奇怪,试了一次,还是退出。差别在哪里?之前是…

YAML 自动化用例中 GET vs POST 请求的参数写法差异

GET 请求:用 params 传参(附加在 URL 上) config:name: "GET 查询用户信息"base_url: "https://api.example.com"teststeps:- name: "根据 userId 查询用户信息"request:method: GETurl: /api/user/detailpara…

使用 SeaTunnel 建立从 MySQL 到 Databend 的数据同步管道

SeaTunnel 是一个非常易用、超高性能的分布式数据集成平台,支持实时海量数据同步。 每天可稳定高效地同步数百亿数据,已被近百家企业应用于生产,在国内较为普及。 Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分…

linux服务器换ip后客户端无法从服务器下载数据到本地问题处理

服务器换ip后客户端无法从服务器下载数据到本地,根据上图提示,让用户清理下~/.ssh/known_hosts文件,下载恢复正常。

从0到1实现Shell!Linux进程程序替换详解

目录从0到1实现Shell!Linux进程程序替换详解 🚀引言:为什么进程需要"变身术"?一、程序替换:进程的"换衣服"魔法 🔄1.1 什么是程序替换?1.2 程序替换的原理:内存…

暑期算法训练.2

目录 6.力扣 11.盛水最多的容器 6.1 题目解析: 6.2 算法思路: 6.2.1 暴力解法: 6.2.2 优化算法: 6.3 代码演示: ​编辑 6.4 总结反思: 7.力扣 611.有效的三角形个数 7.1 题目解析: 7.2…

华为OD 消消乐游戏

1. 题意 游戏规则:输入一个只包含英文字母的字符串,字符串中的两个字母如果相邻且相同,就可以消除。 在字符串上反复执行消除的动作,直到无法继续消除为止,此时游戏结束。 输出最终得到的字符串长度。 输入 输入原始…

小白学HTML,操作HTML文件篇(2)

目录 一、添加多媒体 1.添加网页图片 2.添加网页音频 3.添加网页视频 二、创建容器 1. 标签 2.布局 三、创建表格 1.表格标签 2.添加表格表头 3.添加表格标题 一、添加多媒体 在 HTML 网页中可以轻松地使用标签来添加图片、音频、视频等多媒体,而这些多媒体并…

微服务架构中实现跨服务的字段级权限统一控制

结合集中式权限管理、分布式上下文传递、动态策略执行等技术 ​​一、核心架构设计​​ ​​1. 分层控制模型​​ ​​网关层​​:统一校验用户身份与基础权限,拦截非法请求。 ​​服务层​​:基于用户权限动态过滤数据字段,实现业务级控制。 ​​策略中心​​:集中管理权…

【实现100个unity特效之27】使用unity的ShaderGraph实现一个带裁剪边缘光的裁剪效果(2d3d通用)

文章目录普通裁剪效果1、创建一个Lit Shader Graph2、ShaderGraph前置配置3、添加节点4、效果5、修改裁剪方向带边缘色的裁剪1、在裁剪的基础上添加裁剪边缘光2、边缘的亮度3、修改裁剪方向4、效果5、我们可以代码控制它的变化,如下2D3D游戏通用专栏推荐完结普通裁剪…

Android Scoped Storage适配完全指南

Android Scoped Storage适配完全指南关键词:Android、Scoped Storage、适配、存储权限、文件访问摘要:本文将全面介绍Android Scoped Storage的相关知识,从背景出发,详细解释核心概念,阐述其原理和架构,给出…

Typecho集成PHPMailer实现邮件订阅功能完整指南

文章目录 Typecho使用PHPMailer实现文章推送订阅功能详解 1. 背景与需求分析 1.1 为什么选择PHPMailer 1.2 功能需求 2. 环境准备与配置 2.1 安装PHPMailer 2.2 数据库设计 3. 核心功能实现 3.1 邮件服务封装类 3.2 订阅功能实现 3.2.1 订阅表单处理 3.2.2 确认订阅处理 3.3 文…

无线-二层组网-直接转发

文章目录无线二层组网直接转发🏡作者主页:点击! 🤖Datacom专栏:点击! ⏰️创作时间:2025年07月16日08点00分 无线二层组网 直接转发 本地转发中所有的沿途都需要配置对应VLAN的通过&#xff…