.jsDOM操作的参考学习价值及参考价值分析

发布时间:2021-07-21 18:02 点击:

通过superagent请求目标网站,获取网站内容,通过cheerio.load方法导入要解析的html

cheerio中DOM操作的方式

这里使用了.each(function(index,element){...})方法来遍历需要的元素

返回结果如下:

可以使用以下方法存储文本内容:

引入 fs 模块 const fs = require("fs")

引入路径模块 const path=require("path")

Node.js 内置的 fs 模块是文件系统模块nodejs爬虫模拟浏览器,负责读写文件。与所有其他 JS 模块不同,fs 模块提供异步和同步方法。

调用上面方法中存储文本内容的mkdirs方法

//存放数据
mkdirs('./content2',saveContent); (注: content2是新建文件名;saveContent是回调函数)

文本内容最终会存放在 content2 中的 content.txt 文件中

如果要存储图片,可以使用以下方法:

第二种方式:使用 Nightmare 自动化测试工具。

这里介绍一下噩梦工具的用途:

Electron 允许您使用纯 JavaScript 调用 Chrome 丰富的原生界面来创建桌面应用程序。您可以将其视为专注于桌面应用程序的 Node.js 变体,而不是 Web 服务器。

其基于浏览器的应用方式可以非常方便地进行各种响应式交互

Nightmare 是一个基于 Electron 的 Web 自动化测试和爬虫框架nodejs爬虫模拟浏览器,因为它具有与 PlantomJS 相同的自动化测试功能,可以模拟用户在页面上的行为,触发一些异步数据加载,

也可以像Request库一样直接访问URL抓取数据,并且可以设置页面的延迟时间,方便手动触发脚本或者行为触发脚本。

const Nightmare=require("nightmare") //自动化测试包 ,处理动态页面
const nightmare=Nightmare({show: true}) show:true时,运行node可以显示内置模拟浏览器

nodejs爬虫框架_python模拟登录 爬虫_nodejs爬虫模拟浏览器

操作结束后,下载的图片会保存在image2中。

好了,文章到此结束。如果您有任何问题,请随时纠正我。

总结

以上是本文的全部内容。希望本文的内容对大家的学习或工作有一定的参考价值。感谢您对 Scripthome 的支持。

关于我们

pix

水族爬虫植物百科网是包含了水族鱼类爬虫养殖植物种植的专业性宠物百科.在更多

联系我们

联系我们