Node.js爬虫 CheerioJS ‌轻量级解析、操作和渲染HTML及XML文档

简介

‌ CheerioJS ‌ 是一个专为 Node.js 设计的轻量级库,用于解析、操作和渲染 HTML 及 XML 文档,语法类似 Jquery。

安装

npm install cheerio

示例

const cheerio = require("cheerio");const html = `
<html><head><title>Example</title></head><body><h1>Hello, world!</h1></body>
</html>
`;const $ = cheerio.load(html);console.log($("h1").text()); // 输出: Hello, world!

加载文档

load

解析 HTML 或 XML 文档的最基本方式

import * as cheerio from "cheerio";const html = `
<html><head><title>Example</title></head><body><div class="container"><div class="item">React.js</div><div class="item">Vue.js</div><div class="item">Angular.js</div></div></body>
</html>
`;const $ = cheerio.load(html);
console.log(111, $("div.container .item:first-child").text()); // 输出: React.js

loadBuffer

解析存储文档内容的 buffer 类型数据结构

import * as cheerio from "cheerio";
import * as fs from "fs";const buffer = fs.readFileSync("document.html");
const $ = cheerio.loadBuffer(buffer);
console.log(111, $("div.container .item:first-child").text()); // 输出: React.js

fromURL

从 URL 加载文档

import * as cheerio from "cheerio";const $ = await cheerio.fromURL("https://example.com");

选择元素

Cheerio 允许用户使用 CSS 选择器 从文档中选择元素。方法语法与 jquery 基本一样。

$("p"); // 选择所有 <p> 元素
$("p.item"); // 选择所有 class 为 item 的 <p> 元素
$("p.item:first-child"); // 选择第一个 class 为 item 的 <p> 元素
$("p.item:last-child"); // 选择最后一个 class 为 item 的 <p> 元素
$(".selected"); // 选择所有 class 为 selected 的元素
$("[data-selected=true]"); // 选择所有 data-selected 属性为 true 的元素
$('[xml\\:id="main"'); // 选择所有 xml:id 属性为 main 的元素
$("p.selected"); // 选择所有 class 为 selected 的 <p> 元素
$("div p"); // 选择所有 <div> 元素中的 <p> 元素
$("div > p"); // 选择所有直接子元素为 <p> 的 <div> 元素
$('p:contains("hello")'); // 选择所有包含 "hello" 文字的 <p> 元素

find 查找元素

import * as cheerio from "cheerio";const html = `
<html><head><title>Example</title></head><body><div class="container"><div class="item">React.js</div><div class="item">Vue.js</div><div class="item">Angular.js</div></div></body>
</html>
`;const $ = cheerio.load(html);
const items = $(".container").find(".item");
items.each((index, element) => {console.log($(element).text());
});

children 查找子元素

import * as cheerio from "cheerio";const html = `
<html><head><title>Example</title></head><body><div class="container"><div class="item">React.js</div><div class="item">Vue.js</div><div class="item">Angular.js</div></div></body>
</html>
`;const $ = cheerio.load(html);
const items = $(".container").children(".item");
items.each((index, element) => {console.log($(element).text());
});

find vs children 区别

  • find 方法会递归查找所有符合条件的元素,包括子元素、子元素的子元素等。
  • children 方法只会查找直接子元素,不会查找子元素的子元素。

contents 查找所有子节点

所有子元素,包括文本和注释节点。

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const items = $(".container").contents();
console.log(items.length); // 输出: 7

parent 查找父元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const parent = $(".item").parent();
console.log(parent.prop("class")); // 输出: container

parents 查找所有父元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const parents = $(".item").parents();
parents.each((index, element) => {console.log($(element).prop("tagName"));
});
// 输出:DIV、BODY、HTML

parentsUntil 查找父元素直到指定元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const parents = $(".item").parentsUntil("body");
parents.each((index, element) => {console.log($(element).prop("tagName"));
});

closest 查找最近的父元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const result = $(".item").closest(".container");
console.log(result.prop("class")); // 输出: container

next, prev 查找下一个或上一个兄弟元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const next = $(".item:first-child").next();
console.log(next.text()); // 输出: 2const prev = $(".item:last-child").prev();
console.log(prev.text()); // 输出: 3

nextAll, prevAll 查找所有下一个或上一个兄弟元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const nextAll = $(".item:first-child").nextAll();
nextAll.each((index, element) => {console.log($(element).text());
});
// 输出: 2、3const prevAll = $(".item:last-child").prevAll();
prevAll.each((index, element) => {console.log($(element).text());
});
// 输出: 1、2

siblings 查找所有兄弟元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const siblings = $(".item:first-child").siblings(); // 输出: 2、3

nextUntil, prevUntil 查找下一个或上一个兄弟元素直到指定元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const nextUntil = $(".item:first-child").nextUntil(".item:last-child");
nextUntil.each((index, element) => {console.log($(element).text());
});
// 输出: 2const prevUntil = $(".item:last-child").prevUntil(".item:first-child");
prevUntil.each((index, element) => {console.log($(element).text()
})
// 输出: 3

eq 查找指定索引的元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const result = $(".item").eq(1);
console.log(result.text()); // 输出: 2

filter 查找符合条件的元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item book">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const result = $(".item").filter(".book");
console.log(result.text()); // 输出: 2

not 查找不符合条件的元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item book">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const result = $(".item").not(".book");
result.each((index, element) => {console.log($(element).text());
});
// 输出: 1、3

has 查找包含指定子元素的元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item book"><b>2</b></div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const result = $(".item").has("b");
console.log(result.length); // 输出: 1

first, last 查找第一个或最后一个元素

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);const first = $(".item").first();
console.log(first.text()); // 输出: 1const last = $(".item").last();
console.log(last.text()); // 输出: 3

操作元素

attr 获取或设置属性

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item">2</div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const result = $(".item").attr("class");
console.log(result); // 输出: item$(".img").attr("src", "imgUrl");
console.log($(".img").attr("src")); // 输出: imgUrl

class 属性

$("div").addClass("new-class");
$("div").removeClass("old-class");
$("div").toggleClass("toggle-class");

text 获取或设置文本内容

$("div").text("new text");
console.log($("div").text()); // 输出: new text

html 获取或设置 HTML 内容

$("div").html("<p>new html</p>");
console.log($("div").html()); // 输出: <p>new html</p>

append, prepend 在元素内部追加或前置内容

$(".item").append("<p>append content</p>");
$(".item").prepend("<p>prepend content</p>");

after, before 在元素外部追加或前置内容

$(".item").after("<p>after content</p>");
$(".item").before("<p>before content</p>");

insertAfter, insertBefore 在元素外部追加或前置内容

$("<p>insertAfter content</p>").insertAfter("item");
$("<p>insertBefore content</p>").insertBefore("item");

prependTo, appendTo 在元素内部追加或前置内容

$("<p>prependTo content</p").prependTo(".item");
$("<p>appendTo content</p").appendTo(".item");

wrap, wrapInner 在元素外部包裹内容

$("div").wrap("<div class='wrapper'></div>");
$("div").wrapInner("<div class='wrapper'></div>");

unwrap 移除包裹的元素

$("div").unwrap();

replaceWith 替换元素

$("div").replaceWith("<p>new content</p>");

empty 清空元素内容

$("div").empty();

remove 移除元素

$("div").remove();

更多用法

extract

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item book"><b>2</b></div><div class="item">3</div></div>`;
const $ = cheerio.load(html);
const data = $.extract({book: ".book",
});
console.log(data); // 输出: {"book": "\n        2\n      "}

Configuring 配置

类型默认值描述
scriptingEnabledfalse是否启用脚本
xmlModetrue启用 htmlparser2 的 XML 模式
decodeEntitiestrue解码 HTML 实体。
withStartIndicesfalse为节点添加一个startIndex属性
withEndIndicesfalse为节点添加一个endIndex属性

Extending 扩展

自定义选择器

const html = `<div class="container"><div class="item">1</div><div class="item book"><b>2</b></div><div class="item">3</div></div>`;const $ = cheerio.load(html, {pseudos: {book: "div.book",},
});
console.log($(":book").text()); // 2

自定义方法

import * as cheerio from "cheerio";const html = `<div class="container"><div class="item">1</div><div class="item book"><b>2</b></div><div class="item">3</div></div>`;const $ = cheerio.load(html);
$.prototype.myFunction = function () {return "Hello, World!";
};console.log($(".container").myFunction()); // 输出: Hello, World!

 更多用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.tpcf.cn/diannao/88533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为运维工程师面试题(英语试题,内部资料)

华为运维工程师面试题(英语试题,内部资料) 一、英文自我介绍,重点突出自己运维经验(10分) 二、短语翻译(英译中)(15*3分=45分) 1. Data is a collection of un-organized facts, which can include words, numb ers, images, and sounds. 1. 数据是未经组织的事…

【赵渝强老师】使用mydumper备份MySQL

MySQL在备份方面包含了自身的mysqldump工具&#xff0c;但其只支持单线程工作&#xff0c;这就使得它无法迅速的备份数据。而mydumper作为一个实用工具&#xff0c;能够良好支持多线程工作&#xff0c;这使得它在处理速度方面十倍于传统的mysqldump。其特征之一是在处理过程中需…

华为云 Flexus+DeepSeek 征文|华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】

华为云 FlexusDeepSeek 征文&#xff5c;华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】 文章目录 华为云 FlexusDeepSeek 征文&#xff5c;华为云单机部署 Dify-LLM 开发平台全流程指南【服务部署、模型配置、知识库构建全流程】前言1、…

✨通义万相 2.1(Wan2.1)环境搭建指南:基于 CUDA 12.4 + Python 3.11 + PyTorch 2.5.1 GPU加速实战

&#x1f680;【超详细】基于 CUDA 12.4 Python 3.11 构建 Wan2.1 项目的集成推理环境&#xff08;含 PyTorch 2.5.1 GPU 安装教程&#xff09; 本文将一步一步带你搭建一个可用于构建和运行 Wan2.1 的深度学习环境&#xff0c;完全兼容 CUDA 12.4&#xff0c;并基于官方镜像 …

PROFIBUS DP转ETHERNET/IP在热电项目中的创新应用

在热电项目中&#xff0c;多种设备的高效协同是保障能源稳定供应的关键。PROFIBUS DP与ETHERNET/IP两种工业通信协议因特性不同而应用场景各异。通过协议转换技术实现JH-PB-EIP疆鸿智能PROFIBUS DP转ETHERNET/IP&#xff0c;可整合西门子PLC与电力仪表、变频器等设备&#xff0…

精准把脉 MySQL 性能!xk6-sql 并发测试深度指南

在数据库性能测试领域&#xff0c;xk6-sql凭借其强大的功能和灵活性&#xff0c;成为众多开发者和测试人员的得力工具。它能够模拟高并发场景&#xff0c;精准测试数据库在不同负载下的性能表现。然而&#xff0c;在一些网络受限的环境中&#xff0c;实现xk6-sql的离线安装以及…

【文件】Linux 内核优化实战 - fs.inotify.max_user_instances

目录 一、参数作用与原理1. 核心功能2. 应用场景 二、默认值与影响因素1. 默认配置2. 影响因素 三、调整方法与示例1. 查看当前值2. 临时修改&#xff08;生效至系统重启&#xff09;3. 永久修改&#xff08;修改配置文件&#xff09;4. 合理值建议 四、常见报错与解决方案1. 报…

c++系列之特殊类的设计

&#x1f497; &#x1f497; 博客:小怡同学 &#x1f497; &#x1f497; 个人简介:编程小萌新 &#x1f497; &#x1f497; 如果博客对大家有用的话&#xff0c;请点赞关注再收藏 &#x1f31e; 仅在堆上创建对象的类 将类的构造函数&#xff0c;拷贝构造私有,防止在栈上生…

SpringBoot的国际化

国际化&#xff08;internationalization&#xff09;是设计容易适应不同区域要求的产品的一种方式。它要求从产品中抽离所有地域语言元素。换言之&#xff0c;应用程序的功能和代码设计考虑了在不同地区运行的需要。开发这样的程序的过程&#xff0c;就称为国际化。 那么当我…

prometheus+grafana+Linux监控

prometheusgrafanaLinux监控 环境说明 操作前提&#xff1a; 先去搭建Docker部署prometheusgrafana...这篇文章的系统 Docker部署prometheusgrafana...的参考文章&#xff1a; Docker部署prometheusgrafana…-CSDN博客 Linux部署docker参考文章&#xff1a; 02-Docker安装_doc…

文档处理控件Aspose.Words教程:在.NET中将多页文档转换为单个图像

在Aspose.Words for .NET 25.6版本中&#xff0c;我们引入了一项新功能&#xff0c;允许您将多页文档导出为单个光栅图像。当您需要将文档作为单个可视文件共享或显示时&#xff0c;此功能非常有用。 Aspose.Words for .NET 25.6 的新功能 在 25.6 版之前&#xff0c;将多页文…

vuex4.0用法

VUEX 状态管理&#xff0c;多个组件有共享数据的时候&#xff0c;就叫状态管理 什么情况下会用到vuex , 如果你不知道vuex的情况也能完成你的需求&#xff0c;就说你的项目中不需要用到状态管理。 组件层级比较复杂的时候&#xff0c;还是用组件传值的方式来传值&#xff0c;…

2025.6.24总结

今天发生了两件事&#xff0c;这每件事情都足以影响我的工作状态。 1.团队中有人要转岗 这算是最让我有些小震惊的事件了。我不明白&#xff0c;那个同事干得好好的&#xff0c;为啥会转岗&#xff0c;为啥会被调到其他团队。虽然团队有正编&#xff0c;有od,但我自始自终觉得…

状态模式详解

概述 结构设计类似责任链模式&#xff0c;但是在各个状态进行遍历的过程中&#xff0c;更注重的是条件的判断&#xff0c;只有符合条件的状态才能正常匹配进行处理。条件不成功的会立即切换到下一个状态。 有限状态机 状态机一般指的是有限状态机&#xff08;FSM&#xff1a…

Lua 调试(Debug)

Lua 调试(Debug) 引言 Lua 是一种轻量级的编程语言&#xff0c;广泛应用于游戏开发、嵌入式系统、脚本编写等领域。在 Lua 开发过程中&#xff0c;调试是确保程序正确运行的重要环节。本文将详细介绍 Lua 调试的基本方法、常用工具以及调试技巧&#xff0c;帮助开发者提高编程…

Windows安装Emscripten‌/emsdk(成功)

安装git安装python 不要自行下载版本&#xff0c;先卸载其他版本的python。 使用管理员打开cmd&#xff0c;输入python3&#xff0c;直接跳转到应用商店&#xff0c;安装即可。 为什么一定要这么安装&#xff1f;好像是跟路径有关。 下载emsdk git clone https://github.c…

AI网页部署在本地_windows

用bolt.new写了一个网页&#xff0c;下载ZIP至本地 以下是在 Windows 上本地运行你用 Node.js 搭建的网页服务&#xff0c;并在浏览器中访问的常见流程&#xff1a; 1、安装 Node.js 访问官网 Node.js — Run JavaScript Everywhere &#xff0c;下载适合 Windows 的 LTS 版本…

Linux sudo命令

sudo是一个常用的Linux命令&#xff0c;用于以超级用户的权限执行命令。下面是对sudo命令的介绍&#xff1a; sudo命令的作用&#xff1a; sudo允许普通用户以超级用户&#xff08;root&#xff09;的身份执行特定命令或访问特定文件。它提供了一种安全且可控制的方式&#xf…

邮件合并----批量从excel表中导出数据到word中

文章目录 前言一、操作流程1. 打开word&#xff0c;开始邮件合并->邮件合并分布向导2. 开始邮件合并&#xff0c;一共6步3. 选择全部&#xff0c;点击确认&#xff0c;即可生成Excel表中244条记录&#xff0c;也就是244页。 总结 前言 涉及到将学生的姓名、学号、档案编号、…

活动安排贪心算法

输入说明 n      —— 活动数量 s[1…n]  — 第 i 个活动的开始时间 (start) f[1…n]  — 第 i 个活动的结束时间 (finish) 前置要求&#xff1a;数组已按 f 从小到大排好序 &#xff08;若没排&#xff0c;先调用 sortByFinishTime()&#xff0c;复杂度 O(n log …