不能复制的网页怎么提取文字

yumo6662周前 (04-23)技术文章13

当你碰到无法直接复制文字的网页,比如网页禁用了右键或文字选中功能时,可借助以下几种方法来提取文字:

一、巧用浏览器开发者工具

打开开发者工具:在 Windows 系统中,直接按下 F12 键;Mac 系统则需同时按下 Cmd + Option + I 组合键。

查看网页源代码:在开发者工具界面,切换到 “Elements” 标签,从中定位包含文字的 HTML 代码。文字内容通常位于<p>、<div>或<span>标签内。

直接复制文字:找到对应的 HTML 元素后,右键点击,选择 “Copy -> Copy text”,就能将文字复制出来。

二、禁用网页 JavaScript

部分网页借助 JavaScript 代码禁用复制功能,临时关闭 JavaScript,便可解除这一限制:

浏览器扩展法:安装 “Disable JavaScript” 等扩展程序,安装完成后刷新网页,再尝试复制文字。

手动禁用法:在浏览器设置中,找到 “网站权限 -> JavaScript” 选项,将当前网站的 JavaScript 临时关闭。

三、打印页面为 PDF

打开打印界面:在 Windows 系统下按 Ctrl + P 组合键,Mac 系统则按 Cmd + P 组合键。

另存为 PDF:在打印界面的目标打印机选项中,选择「另存为 PDF」。保存成功后,从 PDF 文件中复制文字。

四、OCR 文字识别

倘若文字是以图片形式呈现,或无法通过常规方式选中:

截图:使用 Win + Shift + S(Windows 系统)或 Cmd + Shift + 4(Mac 系统)截取文字区域屏幕。

使用 OCR 工具:借助在线工具,如 New OCR,或者本地软件,像 QQ 截图、天若 OCR 等,提取图片中的文字。

五、控制台命令提取

在开发者工具的控制台(Console 标签)中输入以下代码,提取网页全文:

javascript

// 提取所有文字

console.log(document.body.innerText);

// 或直接复制到剪贴板

copy(document.body.innerText);

六、启用阅读模式(浏览器自带)

Edge 和 Firefox 浏览器支持阅读模式,点击地址栏旁的书本图标,启用阅读模式。部分网页在该模式下,可解除复制限制,实现文字复制。

注意事项

版权问题:确保自身拥有复制网页内容的合法权限,避免侵犯他人版权。

动态加载内容:若网页文字通过 AJAX 动态加载,可能需要先滚动页面,等待内容完整加载后,再进行复制操作。

在实际操作中,可根据具体场景,选择最为合适的方法。

相关文章

20 个让人惊叹的 JavaScript 单行代码技巧,效率瞬间提升

掌握一些简洁有力的单行代码技巧可以大幅提高编码效率,让JavaScript代码更加优雅。分享 20 个实用且令人惊叹的 JavaScript 单行代码,可能为你的工作带来便利。1. 数组去重const...

CSS view():JavaScript 滚动动画的终结

前言CSS view () 方法可能会标志着 JavaScript 在制作滚动动画方面的衰落。如何用 5 行 CSS 代码取代 50 多行繁琐的 JavaScript,彻底改变网页动画每次和 UI/U...

小程序学习日志7:可滚动的视图区域组件(滚动条)

导读经过这段日子的学习,大家对小程序的了解多了多少呢?我们这段时间学了很多组件的用法,以及这些组件的属性和属性的合法值,图片、文字、块,还了解了不少的样式代码和小程序的基本知识。我们今天来讲一个可滚动...

WINCC如何制作滚动播放的文字

首先,我们先看一下文字播放的效果。如视频所示,文字呈跑马灯的形式进来左右来回滚动,那么在wincc中,如果制作这样的效果呢?带着赖工,学会它!第一步:首先在页面合适的位置,新建一个,静态文本,属性见图...

Selenium 滚动页面至元素可见的方法,看完直接可上手了!

今天为大家带来的内容是:Selenium 滚动页面至元素可见的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧!滚动页面  在...

selenium:操作滚动条的方法(8)

selenium支持几种操作滚动条的方法,主要介绍如下:使用ActionChains 类模拟鼠标滚轮操作使用函数ActionChains.send_keys发送按键Keys.PAGE_DOWN往下滑动...