网页代码过滤 轻松获取专辑目录

yumo6667个月前 (04-22)技术文章68

通过过滤网页代码,可以将网页上显示不全的长文件名列表完整地提取出来。

我有一个含有75个视频文件的《中医诊断学》课件,文件名是以01.RMVB、02.RMVB……75.RMVB这种格式命名的。我希望能找到代表各集文件的标题替换掉以数字命名的视频文件名,这样便于在学习时按文件名点播。我在网上搜索和发帖求助,都没能找到该视频序列的现成文本名列表,但在一个视频网站上发现有该视频专辑的播放页面,却因播放页面上显示的文件名不全而无法以直接复制的办法取得完整的文件名序列(图1)。如果用点击每个链接,查看链接属性,复制完整链接名的办法,倒是可以获得完整的文件名称,但那样一个接一个地操作效率太低了。有没有效率更高的办法呢?

借助网页代码过滤是个解决问题的办法。既然用右键单击链接可以看到完整的视频文件名称,那说明在网页代码中肯定存在完全的视频文件名的记录。获得了网页代码,这些完整文件名也就在其中了。

但是,在网页代码中,完整的文件名是混杂在非常复杂的网页代码中的(图2),如何快速从这密密麻麻的网页中提取出我们所需要的完整视频文件名?这倒成了一个大问题。

最后,我在网页代码的基础上,利用文本编辑器软件的过滤替换技术,在很短的时间内过滤出自己需要的完整文件名序列。具体方法如下。

获取网页代码

右键单击网页,选择快捷菜单命令“查看源文件”,系统会自动用记事本打开网页的源文件代码。

借用EmEditor处理

由于记事本本身对源代码的过滤编辑作用有限,所以我们可以借助于功能强大的文字编辑软件EmEditor来解决问题。

打开EmEditor编辑软件,将以上由记事本获得的网页源码全部复制过来。

过滤网页源代码

经过对源代码的简单分析得知,在每个视频文件名的前面都有一个固定的字符串

用快捷键Ctrl+H启动替换窗口,在“查找”框中输入

最后,再用类似的替换方法成批将其他无关代码段或文字统统替换为空(“替换为”框中不填任何内容),再点一下EmEditor插件工具栏上的一次性删除空白行和重复行命令钮,一次性成批删除多余的空白行和重复行。剩下就是我们要的完全版文件目录列表了。

相关文章

捡来的知识!3种方法随便复制网页内容,白嫖真香呀

网上的资源真的多,所以许多人常常会从网上找资料。我们看到感兴趣的内容,第一时间可能会想要收入囊中。比如说截个图啊,或者挑选有意思的句子复制粘贴,记录下来。可是,有些时候,却会遇到这样的情况:1、内容不...

微软网站源码抢先曝光10月6日发布会新品

Yesky天极新闻2015-09-16 13:50:29【Yesky新闻频道消息】日前,微软已经放出了新品发布会邀请函,发布会时间定在10月6日。按照之前曝光的消息,微软有望在本次发布会中发布大量Wi...

怎么把网站源码扒下来(怎么把网站源码扒下来用)

如今,互联网已经成为我们生活中不可或缺的一部分。无论是获取信息、交流沟通还是进行业务操作,人们都离不开网站。而在这个数字化时代,很多人对于网站源码的探索充满了好奇心。他们想知道如何扒下网站源码,从中学...

Python 爬虫如何爬取网页源码?

下面教大家用几行代码轻松爬取百度首页源码。什么是urllib?urllib库是Python内置的HTTP请求库,它可以看做是处理URL的组件集合。urllib库包含了四大模块,具体如下:urllib....