不能复制的网页怎么提取文字

yumo6667个月前 (04-23)技术文章93

当你碰到无法直接复制文字的网页,比如网页禁用了右键或文字选中功能时,可借助以下几种方法来提取文字:

一、巧用浏览器开发者工具

打开开发者工具:在 Windows 系统中,直接按下 F12 键;Mac 系统则需同时按下 Cmd + Option + I 组合键。

查看网页源代码:在开发者工具界面,切换到 “Elements” 标签,从中定位包含文字的 HTML 代码。文字内容通常位于<p>、<div>或<span>标签内。

直接复制文字:找到对应的 HTML 元素后,右键点击,选择 “Copy -> Copy text”,就能将文字复制出来。

二、禁用网页 JavaScript

部分网页借助 JavaScript 代码禁用复制功能,临时关闭 JavaScript,便可解除这一限制:

浏览器扩展法:安装 “Disable JavaScript” 等扩展程序,安装完成后刷新网页,再尝试复制文字。

手动禁用法:在浏览器设置中,找到 “网站权限 -> JavaScript” 选项,将当前网站的 JavaScript 临时关闭。

三、打印页面为 PDF

打开打印界面:在 Windows 系统下按 Ctrl + P 组合键,Mac 系统则按 Cmd + P 组合键。

另存为 PDF:在打印界面的目标打印机选项中,选择「另存为 PDF」。保存成功后,从 PDF 文件中复制文字。

四、OCR 文字识别

倘若文字是以图片形式呈现,或无法通过常规方式选中:

截图:使用 Win + Shift + S(Windows 系统)或 Cmd + Shift + 4(Mac 系统)截取文字区域屏幕。

使用 OCR 工具:借助在线工具,如 New OCR,或者本地软件,像 QQ 截图、天若 OCR 等,提取图片中的文字。

五、控制台命令提取

在开发者工具的控制台(Console 标签)中输入以下代码,提取网页全文:

javascript

// 提取所有文字

console.log(document.body.innerText);

// 或直接复制到剪贴板

copy(document.body.innerText);

六、启用阅读模式(浏览器自带)

Edge 和 Firefox 浏览器支持阅读模式,点击地址栏旁的书本图标,启用阅读模式。部分网页在该模式下,可解除复制限制,实现文字复制。

注意事项

版权问题:确保自身拥有复制网页内容的合法权限,避免侵犯他人版权。

动态加载内容:若网页文字通过 AJAX 动态加载,可能需要先滚动页面,等待内容完整加载后,再进行复制操作。

在实际操作中,可根据具体场景,选择最为合适的方法。

相关文章

小程序学习日志7:可滚动的视图区域组件(滚动条)

导读经过这段日子的学习,大家对小程序的了解多了多少呢?我们这段时间学了很多组件的用法,以及这些组件的属性和属性的合法值,图片、文字、块,还了解了不少的样式代码和小程序的基本知识。我们今天来讲一个可滚动...

实战网页实现平滑滚动

在导航中,我们使用#简单的实现了,现在我们要实现,点击导航自动跳转指定的节去,通过id去选择<ul class="main-nav-list"> <...

使用Qt实现五颜六色的滚动条

要实现五颜六色的滚动条,可以使用QSS(Qt样式表)来设置滚动条的颜色。以下是一个简单的示例代码,可以设置滚动条的背景颜色为红色:```cppQScrollBar* scrollBar = ui-&g...

Katalon 所有关键字及其含义

以下为katalon所有关键字及其含义,具体可参考官方文档:序号关键字含义1Accept Alert接受当前弹窗(如确认对话框)。2Authenticate处理 HTTP 基础认证(输入用户名和密码)...

vue中监听滚动事件:方法简单留着备用

看似简单的功能事件,难道了不少朋友,不是功能有多难,而是对原理不了解浪费不少时间;简单明了收藏备用,或推荐给初学的朋友,赠人玫瑰手留余香;在mounted中监听滚动元素的ID;‘scroll’监听事件...