用 puppeteer 实现网站自动分页截取的趣事_page.goto wait until timeout puppeteer-程序员宅基地

技术标签: python  java  vue  js  javascript  

最近因为工作中的一个需求,需要针对用户数据页面进行分页并截屏并返回 PDF 文件,期间用到了 puppeteer 与 HTML 分页算法,还找到了一个不错的插件,于是来聊些其中遇到的趣事,先附上目录。

  • 一、利用 puppeteer 截取页面

  • 1.1 puppeteer 还是 puppeteer-core

  • 1.2 简单的 cookie 透传

  • 1.3 页面加载状态判断

  • 1.4 截图格式选择 pdf 还是 png

  • 二、DFS 加二分,一个简单的 HTML 分页算法

  • 三、CSS 打印样式

  • 四、插件与其他

  • 4.1 puppeteer-recorder

  • 4.2 参考

开始吧。


一、利用 puppeteer 截取页面

image

puppeteer,即 Headless Chrome Node.js API 实现,被广泛用于自动化测试和爬虫方向的工作,一个最基本用法如下:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();

  // 下文中会多次用到 page 对象,可以先留意下
  const page = await browser.newPage();
  await page.goto('https://www.google.com');
  // other actions...
  await browser.close();
})();

如上示例打开了 Chromium 浏览器,并打开了一个新页面跳转至 Google 首页,然后将浏览器关闭,关于更多详细的用法可以直接翻阅 API 文档查看。我们来看其他几个点。

1.1 puppeteer 还是 puppeteer-core

从 1.7.0 版本往后,puppeteer 会同时发布两个版本:

说到两者的区别,主要在于:

  • puppeteer-core 在安装时不会下载 Chromium
  • puppeteer-core 会忽略所有 PUPPETEER_* 环境变量

所以,在使用 puppeteer-core 时,需要确保环境中已拥有可执行的 Chromium 文件,比如在调用 puppeteer.launch 方法时,如果你将对应的 Chrome 压缩包解压到了你的 dist 文件夹中,那么便可以通过下面的方式显式指明你的浏览器可执行路径 executablePath

const path = require('path');
import { launch } from 'puppeteer-core';

const getExecutableFilePath = () => {
    const extraPath = {
        Linux_x64: 'chrome',
        Mac: 'Chromium.app/Contents/MacOS/Chromium',
        Win: 'chrome.exe',
    }[getOSType()]; // 假设通过这个函数可以获得系统类型
    return path.join(path.resolve('dist/chrome'), extraPath);
}

const browser = await launch({
    executablePath: getExecutableFilePath(),
    args: [ '--no-sandbox', ],
    headless: true,
});

但更多时候,在国内使用 puppeteer-core 还有一个特殊考虑,那就是 puppeteer 需要下载 Chrome,正常情况下速度很慢。关于两者详细的区别可以看 https://github.com/puppeteer/puppeteer/blob/main/docs/api.md#puppeteer-vs-puppeteer-core

1.2 简单的 cookie 透传

假设你的 puppeteer 服务提供给他人调用,而请求方想截取的是一张需要登陆状态的页面,该怎么办呢?简单来看,透传 cookie 貌似就能解决这个问题。

puppeteer 在 Page 类上提供有 setCookie 方法,这允许你从请求方发来的 request headers 上获取 cookies,并将内容按键值对解析后批量注入打开的浏览器环境。简单的示例可以长成这样:

import { SetCookie } from 'puppeteer-core';

const cookieList: SetCookie[] = [{ ... }];

await page.setCookie(...cookieList);

调用 setCookie 时你可以传入一个对象,也可以传入展开的对象数组,每个传入对象中 name 和 value 属性是必须的,当然也可以指定 domain 字段细化 cookie 的应用范围。由于涉及到对 url 的处理,推荐一个三方库 url-parse,可以节省不少时间,用法如下:

/**
 * URL Schema
 *
 * - `protocol`: The protocol scheme of the URL (e.g. `http:`).
 * - `slashes`: A boolean which indicates whether the `protocol` is followed by two forward slashes (`//`).
 * - `auth`: Authentication information portion (e.g. `username:password`).
 * - `username`: Username of basic authentication.
 * - `password`: Password of basic authentication.
 * - `host`: Host name with port number.
 * - `hostname`: Host name without port number.
 * - `port`: Optional port number.
 * - `pathname`: URL path.
 * - `query`: Parsed object containing query string, unless parsing is set to false.
 * - `hash`: The "fragment" portion of the URL including the pound-sign (`#`).
 * - `href`: The full URL.
 * - `origin`: The origin of the URL.
 */
const Url = require('url-parse');
let host: string = Url(url).hostname;

如此一来你就可以在打开对应页面时,带上和请求方一致的 cookie 信息了。

1.3 页面加载状态判断

我们首先要先把页面加载出来,然后才能做截图处理。但是加载页面,如何判断页面加载完毕呢?puppeteer 在打开页面时有提供 waitUntil 选项以及 timeout 时长,这里取值可以是下列四个选项之一:

const maxTimeout: number;
const url: string;

const gotoAction = () => {
    return page.goto(url, {
        waitUntil: waitUntil as 'networkidle0' | 'networkidle2' | 'domcontentloaded' | 'load',
        timeout: maxTimeout,
    });
};

通过一个 Promise 简单包装下打开页面时可能出现的报错,我们的代码可以写成下面这样:

let pageErrorPromise = new Promise((_res, rej) => {
    promiseReject = rej;
});

page.on('pageerror', (pageerr) => {
    promiseReject(pageerr);
});

await Promise.race([
    gotoAction(),
    pageErrorPromise,
]);

当然,即便到这一步,你依旧可能没法确认页面已经加载完毕,假设页面就是存在一段特殊逻辑需要在5s后进行一个公式渲染。

好在 puppeteer 提供有监听页面变量/方法变动的 API,于是我们可以这么做:

await page.waitForFunction('window.allDone', {
    timeout: maxTimeout,
});

如此一来,只需要目标页面在完成所有内容渲染后触发 window.allDone “通知“我们即可。

1.4 截图格式选择 pdf 还是 png

puppeteer 的 page 类提供有 page.screenshot([options])page.pdf([options]) 两个 API,分别可以将当前页面截取为图片和 PDF 格式的数据,这个可以具体查看文档使用即可。

但在实际使用时,我有遇到一些问题,比如截取 PDF 时指定的宽高不完全准确、页面在内容布局超长时指定的宽度会失效等等,这里面一部分可以通过设置 viewport 解决,另一部分搜了下像是这个 issue 提到的问题,即puppeteer 在截图时会针对相似的内置规格进行“四舍五入”。

注:还有一个需要注意的是,pdf API 到现在还只支持在 headless 模式下操作。

二、DFS 加二分,一个简单的 HTML 分页算法

对于分页操作,我们往往不能直接截图生成 PDF 就完事,一方面是尺寸可能和我们需要的效果存在差异,另一方面则是默认打印的效果无法保证页面中 DOM 不被分页分割成两半。

因此,我们需要设计一个简单的分页算法,对 DOM 进行重排,以适合我们的打印布局。这里简单介绍下我们在研发中采用的方法。

分页算法我们分成以下几个部分。

**第一步,等待所有 DOM 节点加载完成。**由于页面中大多数资源除了文本便是图片资源,而图片资源还可能会通过动态逻辑生成,为了准确计算各个节点的尺寸大小与重排,我们需要等待节点加载并完成渲染后再做进一步操作,这里采用监听 load 事件(load 事件已经包含样式文件以及图片资源的加载判断,但针对 JavaScript 逻辑中动态生成的图片标签可能捕获不准)加额外一次 img 标签 complete 状态轮询的方式确定内容渲染完成。

// load 事件监听
window.onload = (event) => {
  console.log('page is fully loaded');
};

// img 标签加载状态轮询(在 load 事件触发后执行)
const imgs = document.querySelectorAll('img');

imgs.map((img) => {
    if (img.complete) {
        // ...
    } else {
        // ...
    }
});

**第二步,打平 DOM 树。**因为要确保分页的准确,所以我们肯定需要对整个 DOM 进行递归性遍历,挨个枚举判断其在文档流中的位置与尺寸,所以我们先将目标节点全部打平。这里相对比较简单,用个 DFS 将 DOM 元素递归打平即可,可能有时我们需要跳过一些指定元素的递归,那么额外维护一个列表即可。

// 节点列表
const elementList = [];

// 自定义跳过的节点与 className 列表
const CUSTOM_CLASS_AND_TAGS = ['header', 'footer', 'custom-pagination'];

// 获取节点
const getNode = (id: string): HTMLElement => {
    return document.getElementById(id);
}

//
const dfs = (node: HTMLElement): void => {
    // 注释节点则跳过
    if (node.nodeType === Node.COMMENT_NODE) {
        return ;
    }

    if (node.nodeType === Node.TEXT_NODE) {
        elementList.push(node);
        return ;
    }

    // 通过该方法可以获得节点的 className 以及 tag
    const nodeClassAndTag = getNodeClassAndTag(node);
    const isLeafNode = CUSTOM_CLASS_AND_TAGS.some(leafNodeSelector =>
        nodeClassAndTag.includes(leafNodeSelector)
    );

    if (isLeafNode) {
        elementList.push(node);
        return ;
    }

    node?.childNodes?.forEach(item => dfs(item));
}

**第三步,找到跨越边界的节点。**这一步的解法也很直观,借助上一步产出的节点列表,我们可以利用二分来快速定位边界节点,但如何确定节点是否越界呢?这里需要借助 Web API 中的 Range 对象,Range 对象是表示一个包含节点与文本节点的一部分的文档片段。

利用 Document.createRange() 可以产生一个 Range,在这个对象上调用 getBoundingClientRect() 可以得到一个 DOMRect 对象,该对象将范围中的内容包围起来,你可以理解成这是一个边界矩形,通过他你便可以算出当前内容是否超过一页。

// 产生 Range
const range = document.createRange();
range.selectNodeContents(getNode('id'));

// 二分查找
const startIndex = 0;
const endIndex = elementList.length - 1;

while (startNodeIndex < endNodeIndex) {
    const midNodeIndex = Math.floor((startNodeIndex + endNodeIndex) / 2);
    const node = elementList[midNodeIndex];
    const includeInNewPage = includeInNewPage(node);
    if (includeInNewPage) {
        startNodeIndex = midNodeIndex + 1;
    } else {
        endNodeIndex = midNodeIndex;
    }
}

// 判断包含节点的 Range 是否越界
const includeInNewPage = (el: HTMLElement) => {
    const innerRange = range.cloneRange();
    innerRange.setEndAfter(el);

    const rect = innerRange.getBoundingClientRect();

    // 判断逻辑
    // rect.height ... 
}

**第四步,将内容切分为当前页与剩余内容。**虽然我们找到了越界的节点,但是我们并不清楚它是从哪开始越界的。

打个比方,当前节点是一段三行的文本,可能到第二行末尾都是放的下的,只有到第三行才越界,那么我们在切分时就该准确的找到这个位置,并把原来的 DOM 切成两半。再比如,如果我们所遇到的节点是非文本节点,那么这个节点便可以认为是不可再分的单元,只能被唯一分到其中一半中去,所以这块的伪代码应该长成这样:

const newPagedContentRange: Range;
const remainedContentRange: Range;

const paging = (boundaryNodeIndex: number) => {
    const boundaryNode = elementList[boundaryNodeIndex];

    if (boundaryNode.nodeType === Node.TEXT_NODE) {
        const boundaryCharIndex = binarySearchBoundaryCharIndex(boundaryNode);

        newPagedContentRange.setEnd(boundaryNode, boundaryCharIndex);
        remainedContentRange.setStart(boundaryNode, boundaryCharIndex);

        return;
    }

    newPagedContentRange.setEndBefore(boundaryNode);
    remainedContentRange.setStartBefore(boundaryNode);

    // 判断 newPagedContentRange 是不是真的有内容,避免无限循环
    const rect = newPagedContentRange.getBoundingClientRect();

    if (!rect.height) {
        newPagedContentRange.setEndAfter(boundaryNode);
        remainedContentRange.setStartAfter(boundaryNode);
    }
}

上面有一个方法没有展开,即 binarySearchBoundaryCharIndex,它的作用是采用二分对当前文本节点进行切分,并返回越界的文本位置下标,这里在判断时依然是采用复制 Range 然后判断边界矩形的思路,只不过 Range.setEndAfter() API 要换成 Range.setEnd(),因为这里你要对一个节点中的文本依次遍历。完成判断之后,便可以拿到 newPagedContentRange 对当前页内容进行操作/复原。

另外,对 remainedContentRange 循环如上第三步和第四步,直至剩余内容不再超过一页。

三、CSS 打印样式

你也可以通过 CSS 指定打印样式,这允许我们针对页面在打印操作时进行样式的定制化操作。

/** 比如,你可以把你要定制的打印样式写入如下花括号中 */
@media print {
   ...
}

/** 再比如,你可以这样设置页面边距 */
@page { margin: 2cm }

@page :left {
    margin: 1cm;
}

@page :right {
    margin: 1cm;
}

再比如,CSS 中还有三个属性,分别是 page-break-beforepage-break-afterpage-break-inside,可以让我们精确地控制打印页面在何处分页。除此之外,也可以避免图片被切成两段。

  • page-break-before 是否在此元素前面设置一个分页符;
  • page-break-after 设置元素后面的分页符;
  • page-break-inside 可以在元素内部产生一个截断,比如图片;
/* 以下是可选的设置项 */
page-break-after  : auto | always | avoid | left | right
page-break-before : auto | always | avoid | left | right
page-break-inside : auto | avoid

当然,除了上面这些,我们如果需要在现有样式上支持打印样式,还需要做很多其他处理,比如对超链接高亮、隐藏音视频标签等等,这里就不详细展开了。

四、插件与其他

4.1 puppeteer-recorder

image

有一个不错的插件叫 puppeteer-recorder 推荐一下,它能够记录你在 Chrome 上的操作并据此生成一段 Puppeteer script 代码,比如我现在需要在打开页面后通过一系列点击操作跳转到另一个页面状态,如果按照传统方法我们应该是理清思路然后把这段流程用代码写出来,通过这个插件,三步即可达到相同效果:

  • 点击 record 开始录制
  • 按照预期在页面上交互
  • 点击停止,复制插件上生成的如下代码
const puppeteer = require('puppeteer');
(async () => {
  const browser = await puppeteer.launch()
  const page = await browser.newPage()

  const navigationPromise = page.waitForNavigation()

  await page.goto('https://hijiangtao.github.io/')

  await page.setViewport({ width: 2560, height: 1280 })

  await page.waitForSelector('.masthead > .masthead__inner-wrap > .masthead__menu > #site-nav > .site-title')
  await page.click('.masthead > .masthead__inner-wrap > .masthead__menu > #site-nav > .site-title')

  await navigationPromise

  await page.waitForSelector('.archive > .pagination > ul > li:nth-child(3) > a')
  await page.click('.archive > .pagination > ul > li:nth-child(3) > a')

  await navigationPromise

  await page.waitForSelector('.archive > .list__item:nth-child(6) > .archive__item > .archive__item-title > a')
  await page.click('.archive > .list__item:nth-child(6) > .archive__item > .archive__item-title > a')

  await navigationPromise

  await page.waitForSelector('footer > .page__footer-follow > .social-icons > li:nth-child(3) > a')
  await page.click('footer > .page__footer-follow > .social-icons > li:nth-child(3) > a')

  await navigationPromise

  await browser.close()
})()

祝大家在 Web 里玩的愉快。

服务推荐

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_48726650/article/details/107577930

智能推荐

从零开始搭建Hadoop_创建一个hadoop项目-程序员宅基地

文章浏览阅读331次。第一部分:准备工作1 安装虚拟机2 安装centos73 安装JDK以上三步是准备工作,至此已经完成一台已安装JDK的主机第二部分:准备3台虚拟机以下所有工作最好都在root权限下操作1 克隆上面已经有一台虚拟机了,现在对master进行克隆,克隆出另外2台子机;1.1 进行克隆21.2 下一步1.3 下一步1.4 下一步1.5 根据子机需要,命名和安装路径1.6 ..._创建一个hadoop项目

心脏滴血漏洞HeartBleed CVE-2014-0160深入代码层面的分析_heartbleed代码分析-程序员宅基地

文章浏览阅读1.7k次。心脏滴血漏洞HeartBleed CVE-2014-0160 是由heartbeat功能引入的,本文从深入码层面的分析该漏洞产生的原因_heartbleed代码分析

java读取ofd文档内容_ofd电子文档内容分析工具(分析文档、签章和证书)-程序员宅基地

文章浏览阅读1.4k次。前言ofd是国家文档标准,其对标的文档格式是pdf。ofd文档是容器格式文件,ofd其实就是压缩包。将ofd文件后缀改为.zip,解压后可看到文件包含的内容。ofd文件分析工具下载:点我下载。ofd文件解压后,可以看到如下内容: 对于xml文件,可以用文本工具查看。但是对于印章文件(Seal.esl)、签名文件(SignedValue.dat)就无法查看其内容了。本人开发一款ofd内容查看器,..._signedvalue.dat

基于FPGA的数据采集系统(一)_基于fpga的信息采集-程序员宅基地

文章浏览阅读1.8w次,点赞29次,收藏313次。整体系统设计本设计主要是对ADC和DAC的使用,主要实现功能流程为:首先通过串口向FPGA发送控制信号,控制DAC芯片tlv5618进行DA装换,转换的数据存在ROM中,转换开始时读取ROM中数据进行读取转换。其次用按键控制adc128s052进行模数转换100次,模数转换数据存储到FIFO中,再从FIFO中读取数据通过串口输出显示在pc上。其整体系统框图如下:图1:FPGA数据采集系统框图从图中可以看出,该系统主要包括9个模块:串口接收模块、按键消抖模块、按键控制模块、ROM模块、D.._基于fpga的信息采集

微服务 spring cloud zuul com.netflix.zuul.exception.ZuulException GENERAL-程序员宅基地

文章浏览阅读2.5w次。1.背景错误信息:-- [http-nio-9904-exec-5] o.s.c.n.z.filters.post.SendErrorFilter : Error during filteringcom.netflix.zuul.exception.ZuulException: Forwarding error at org.springframework.cloud..._com.netflix.zuul.exception.zuulexception

邻接矩阵-建立图-程序员宅基地

文章浏览阅读358次。1.介绍图的相关概念  图是由顶点的有穷非空集和一个描述顶点之间关系-边(或者弧)的集合组成。通常,图中的数据元素被称为顶点,顶点间的关系用边表示,图通常用字母G表示,图的顶点通常用字母V表示,所以图可以定义为:  G=(V,E)其中,V(G)是图中顶点的有穷非空集合,E(G)是V(G)中顶点的边的有穷集合1.1 无向图:图中任意两个顶点构成的边是没有方向的1.2 有向图:图中..._给定一个邻接矩阵未必能够造出一个图

随便推点

MDT2012部署系列之11 WDS安装与配置-程序员宅基地

文章浏览阅读321次。(十二)、WDS服务器安装通过前面的测试我们会发现,每次安装的时候需要加域光盘映像,这是一个比较麻烦的事情,试想一个上万个的公司,你天天带着一个光盘与光驱去给别人装系统,这将是一个多么痛苦的事情啊,有什么方法可以解决这个问题了?答案是肯定的,下面我们就来简单说一下。WDS服务器,它是Windows自带的一个免费的基于系统本身角色的一个功能,它主要提供一种简单、安全的通过网络快速、远程将Window..._doc server2012上通过wds+mdt无人值守部署win11系统.doc

python--xlrd/xlwt/xlutils_xlutils模块可以读xlsx吗-程序员宅基地

文章浏览阅读219次。python–xlrd/xlwt/xlutilsxlrd只能读取,不能改,支持 xlsx和xls 格式xlwt只能改,不能读xlwt只能保存为.xls格式xlutils能将xlrd.Book转为xlwt.Workbook,从而得以在现有xls的基础上修改数据,并创建一个新的xls,实现修改xlrd打开文件import xlrdexcel=xlrd.open_workbook('E:/test.xlsx') 返回值为xlrd.book.Book对象,不能修改获取sheett_xlutils模块可以读xlsx吗

关于新版本selenium定位元素报错:‘WebDriver‘ object has no attribute ‘find_element_by_id‘等问题_unresolved attribute reference 'find_element_by_id-程序员宅基地

文章浏览阅读8.2w次,点赞267次,收藏656次。运行Selenium出现'WebDriver' object has no attribute 'find_element_by_id'或AttributeError: 'WebDriver' object has no attribute 'find_element_by_xpath'等定位元素代码错误,是因为selenium更新到了新的版本,以前的一些语法经过改动。..............._unresolved attribute reference 'find_element_by_id' for class 'webdriver

DOM对象转换成jQuery对象转换与子页面获取父页面DOM对象-程序员宅基地

文章浏览阅读198次。一:模态窗口//父页面JSwindow.showModalDialog(ifrmehref, window, 'dialogWidth:550px;dialogHeight:150px;help:no;resizable:no;status:no');//子页面获取父页面DOM对象//window.showModalDialog的DOM对象var v=parentWin..._jquery获取父window下的dom对象

什么是算法?-程序员宅基地

文章浏览阅读1.7w次,点赞15次,收藏129次。算法(algorithm)是解决一系列问题的清晰指令,也就是,能对一定规范的输入,在有限的时间内获得所要求的输出。 简单来说,算法就是解决一个问题的具体方法和步骤。算法是程序的灵 魂。二、算法的特征1.可行性 算法中执行的任何计算步骤都可以分解为基本可执行的操作步,即每个计算步都可以在有限时间里完成(也称之为有效性) 算法的每一步都要有确切的意义,不能有二义性。例如“增加x的值”,并没有说增加多少,计算机就无法执行明确的运算。 _算法

【网络安全】网络安全的标准和规范_网络安全标准规范-程序员宅基地

文章浏览阅读1.5k次,点赞18次,收藏26次。网络安全的标准和规范是网络安全领域的重要组成部分。它们为网络安全提供了技术依据,规定了网络安全的技术要求和操作方式,帮助我们构建安全的网络环境。下面,我们将详细介绍一些主要的网络安全标准和规范,以及它们在实际操作中的应用。_网络安全标准规范