不能复制的网页怎么提取文字
当你碰到无法直接复制文字的网页,比如网页禁用了右键或文字选中功能时,可借助以下几种方法来提取文字:
一、巧用浏览器开发者工具
打开开发者工具:在 Windows 系统中,直接按下 F12 键;Mac 系统则需同时按下 Cmd + Option + I 组合键。
查看网页源代码:在开发者工具界面,切换到 “Elements” 标签,从中定位包含文字的 HTML 代码。文字内容通常位于<p>、<div>或<span>标签内。
直接复制文字:找到对应的 HTML 元素后,右键点击,选择 “Copy -> Copy text”,就能将文字复制出来。
二、禁用网页 JavaScript
部分网页借助 JavaScript 代码禁用复制功能,临时关闭 JavaScript,便可解除这一限制:
浏览器扩展法:安装 “Disable JavaScript” 等扩展程序,安装完成后刷新网页,再尝试复制文字。
手动禁用法:在浏览器设置中,找到 “网站权限 -> JavaScript” 选项,将当前网站的 JavaScript 临时关闭。
三、打印页面为 PDF
打开打印界面:在 Windows 系统下按 Ctrl + P 组合键,Mac 系统则按 Cmd + P 组合键。
另存为 PDF:在打印界面的目标打印机选项中,选择「另存为 PDF」。保存成功后,从 PDF 文件中复制文字。
四、OCR 文字识别
倘若文字是以图片形式呈现,或无法通过常规方式选中:
截图:使用 Win + Shift + S(Windows 系统)或 Cmd + Shift + 4(Mac 系统)截取文字区域屏幕。
使用 OCR 工具:借助在线工具,如 New OCR,或者本地软件,像 QQ 截图、天若 OCR 等,提取图片中的文字。
五、控制台命令提取
在开发者工具的控制台(Console 标签)中输入以下代码,提取网页全文:
javascript
// 提取所有文字
console.log(document.body.innerText);
// 或直接复制到剪贴板
copy(document.body.innerText);
六、启用阅读模式(浏览器自带)
Edge 和 Firefox 浏览器支持阅读模式,点击地址栏旁的书本图标,启用阅读模式。部分网页在该模式下,可解除复制限制,实现文字复制。
注意事项
版权问题:确保自身拥有复制网页内容的合法权限,避免侵犯他人版权。
动态加载内容:若网页文字通过 AJAX 动态加载,可能需要先滚动页面,等待内容完整加载后,再进行复制操作。
在实际操作中,可根据具体场景,选择最为合适的方法。