网页代码过滤 轻松获取专辑目录

yumo6662个月前 (04-22)技术文章13

通过过滤网页代码,可以将网页上显示不全的长文件名列表完整地提取出来。

我有一个含有75个视频文件的《中医诊断学》课件,文件名是以01.RMVB、02.RMVB……75.RMVB这种格式命名的。我希望能找到代表各集文件的标题替换掉以数字命名的视频文件名,这样便于在学习时按文件名点播。我在网上搜索和发帖求助,都没能找到该视频序列的现成文本名列表,但在一个视频网站上发现有该视频专辑的播放页面,却因播放页面上显示的文件名不全而无法以直接复制的办法取得完整的文件名序列(图1)。如果用点击每个链接,查看链接属性,复制完整链接名的办法,倒是可以获得完整的文件名称,但那样一个接一个地操作效率太低了。有没有效率更高的办法呢?

借助网页代码过滤是个解决问题的办法。既然用右键单击链接可以看到完整的视频文件名称,那说明在网页代码中肯定存在完全的视频文件名的记录。获得了网页代码,这些完整文件名也就在其中了。

但是,在网页代码中,完整的文件名是混杂在非常复杂的网页代码中的(图2),如何快速从这密密麻麻的网页中提取出我们所需要的完整视频文件名?这倒成了一个大问题。

最后,我在网页代码的基础上,利用文本编辑器软件的过滤替换技术,在很短的时间内过滤出自己需要的完整文件名序列。具体方法如下。

获取网页代码

右键单击网页,选择快捷菜单命令“查看源文件”,系统会自动用记事本打开网页的源文件代码。

借用EmEditor处理

由于记事本本身对源代码的过滤编辑作用有限,所以我们可以借助于功能强大的文字编辑软件EmEditor来解决问题。

打开EmEditor编辑软件,将以上由记事本获得的网页源码全部复制过来。

过滤网页源代码

经过对源代码的简单分析得知,在每个视频文件名的前面都有一个固定的字符串

用快捷键Ctrl+H启动替换窗口,在“查找”框中输入

最后,再用类似的替换方法成批将其他无关代码段或文字统统替换为空(“替换为”框中不填任何内容),再点一下EmEditor插件工具栏上的一次性删除空白行和重复行命令钮,一次性成批删除多余的空白行和重复行。剩下就是我们要的完全版文件目录列表了。

相关文章

在线抓取网页源码(爬虫获取网页源代码)

经验分享:如何解决爬虫抓取时的网页源码不全问题爬虫是一种常用的数据采集工具,可以帮助我们快速获取互联网上的各种信息。然而,很多人在使用爬虫时都会遇到一个普遍的问题,那就是爬虫抓取的网页源码总是不完整。...

为了周末带女神一起去看电影,我用Python爬取上万部电影的排名

文章目录一、写在前面好不容易女神喊我去看电影,但是她问我准备看什么,那我得好好准备准备~二、准备工作1、使用的软件私信小编01即可获取大量Python学习资源python 3.8 (来源 免费的)Py...

个人网站集成js小游戏《圈小猫》教程及源码

今天在某网站浏览帖子的时候,发现帖子被删除了,然后弹出了404页面,页面上集成了一个小游戏,小游戏长什么样子呢?看下面这个图!第一步查看小游戏源码,发现这个小游戏完全是由JavaScript编写的,因...

如何快速使用urllib爬取网页?

什么是urllib?urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:urllib.request:请求模块urllib.er...

python爬虫:四种数据解析库提取数据速度对比

本文以一个小说网站页面为例,提取里面的网址和各章节的名称将各种数据库解析的速度进行对比,对比对象为以下4种方式:1>>>正则表达式2>>>BeautifulSoup...

CSS实现的阴影的3D立体文字动画网页源码

大家好,今天给大家介绍一款,炫酷的阴影的3D立体文字动画网页源码(图1)。送给大家哦,获取方式在本文末尾。由两组文字构成,都有阴影,加上左右晃动,3D效果很明显(图2)响应式页面,支持各种分辨率(图3...