网页代码过滤 轻松获取专辑目录

yumo6664个月前 (04-22)技术文章36

通过过滤网页代码,可以将网页上显示不全的长文件名列表完整地提取出来。

我有一个含有75个视频文件的《中医诊断学》课件,文件名是以01.RMVB、02.RMVB……75.RMVB这种格式命名的。我希望能找到代表各集文件的标题替换掉以数字命名的视频文件名,这样便于在学习时按文件名点播。我在网上搜索和发帖求助,都没能找到该视频序列的现成文本名列表,但在一个视频网站上发现有该视频专辑的播放页面,却因播放页面上显示的文件名不全而无法以直接复制的办法取得完整的文件名序列(图1)。如果用点击每个链接,查看链接属性,复制完整链接名的办法,倒是可以获得完整的文件名称,但那样一个接一个地操作效率太低了。有没有效率更高的办法呢?

借助网页代码过滤是个解决问题的办法。既然用右键单击链接可以看到完整的视频文件名称,那说明在网页代码中肯定存在完全的视频文件名的记录。获得了网页代码,这些完整文件名也就在其中了。

但是,在网页代码中,完整的文件名是混杂在非常复杂的网页代码中的(图2),如何快速从这密密麻麻的网页中提取出我们所需要的完整视频文件名?这倒成了一个大问题。

最后,我在网页代码的基础上,利用文本编辑器软件的过滤替换技术,在很短的时间内过滤出自己需要的完整文件名序列。具体方法如下。

获取网页代码

右键单击网页,选择快捷菜单命令“查看源文件”,系统会自动用记事本打开网页的源文件代码。

借用EmEditor处理

由于记事本本身对源代码的过滤编辑作用有限,所以我们可以借助于功能强大的文字编辑软件EmEditor来解决问题。

打开EmEditor编辑软件,将以上由记事本获得的网页源码全部复制过来。

过滤网页源代码

经过对源代码的简单分析得知,在每个视频文件名的前面都有一个固定的字符串

用快捷键Ctrl+H启动替换窗口,在“查找”框中输入

最后,再用类似的替换方法成批将其他无关代码段或文字统统替换为空(“替换为”框中不填任何内容),再点一下EmEditor插件工具栏上的一次性删除空白行和重复行命令钮,一次性成批删除多余的空白行和重复行。剩下就是我们要的完全版文件目录列表了。

相关文章

在线抓取网页源码(爬虫获取网页源代码)

经验分享:如何解决爬虫抓取时的网页源码不全问题爬虫是一种常用的数据采集工具,可以帮助我们快速获取互联网上的各种信息。然而,很多人在使用爬虫时都会遇到一个普遍的问题,那就是爬虫抓取的网页源码总是不完整。...

为了周末带女神一起去看电影,我用Python爬取上万部电影的排名

文章目录一、写在前面好不容易女神喊我去看电影,但是她问我准备看什么,那我得好好准备准备~二、准备工作1、使用的软件私信小编01即可获取大量Python学习资源python 3.8 (来源 免费的)Py...

如何查看网页的HTML源代码?这里提供详细步骤

每个主要的互联网浏览器都允许用户查看任何网页的HTML(超文本标记语言)源代码。以下部分包含有关在每个主要浏览器中查看源代码的多种方法的信息。引言查看网页的源代码时,服务器处理的信息和代码不会出现。例...

贼爽,在Github网页版也能用开发工具看源码了

平时大家在Github上找项目的时候经常会需要去看看这个项目的一些代码,如果是明确的想要这个项目,就会下载到本地,然后导入到开发工具中查看。如果不是很明确,只是想了解下,就会直接在网页上进行查看,大家...

软网推荐:滚动截图将超长网页“一网打尽”

网页截图是我们最常使用的一个功能,但是一般网页都会超过一屏的页面。所以按照常规的方法进行截屏操作的话,就不能将所有的内容进行截取操作,往往需要进行几次截屏并进行拼接才可以。其实借助一些软件工具,无需如...

如何快速使用urllib爬取网页?

什么是urllib?urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:urllib.request:请求模块urllib.er...