技术标签: 爬虫 python websocket http
首先谈一下这篇文章主要的爬虫对象,基本上都是一些视频网站(一些大厂会有自己独特的编码风格需要自行破解加密格式,所以很难实现,所以这篇文章主要针对于一些小网站)。
下面先说一下blob加密的实现,可以参考这篇博客(https://blog.csdn.net/xingyun89114/article/details/80699527)
总结来说呢,其实就是HTTP请求后的数据做blob加密,上篇博客我们也可以在开发者模式中的network部分找到相关m3u8文件以及ts文件,在这里先提一句,那就是有一些网站呢,你已经开始播放后,再打开开发者模式去找这些文件的时候,可能你只能找到ts文件,你需要刷新网页先开开发者模式,再进行后续操作。
首先你需要找到m3u8文件,其次你需要解析出所有的ts文件的路径,这个解析的过程是因为大部分m3u8文件的里面给出的ts文件是相对路径,最后通过命令行将所有ts文件拼接成MP4文件。
理论成立,实践开始!
首先呢,我们做的工作是半自动化,手动下载你所需要的m3u8文件,就是在开发者模式中找到该文件,通过其url进行下载,下面给出一段关于解析m3u8文件到ts文件的代码片段。
def get_ts_urls(path_m3u8, filename, base_url):
# 将index.m3u8文件解读为数组
print('-' * 70)
print('Analysising M3U8 File...')
urls = []
with open(path_m3u8 + filename,"r") as file:
lines = file.readlines()
for line in lines:
if line.endswith(".ts\n"):
urls.append(base_url+ line.strip("\n"))
if(len(urls) > 0):
print('-' * 70)
return urls
这样我们便得到了一个关于所有ts文件的url的list。
其次的工作呢,是将这些url中的ts文件下载到本地。
我利用的是urllib,给出相关代码如下:
(后续会对其进行加工)
urlretrieve(url, filename)
之后是通过命令行来将所有的ts文件转为一个MP4文件
copy /b *.ts video.mp4
这样一个最low最low的版本就实现了,下面我们根据上述方法存在的问题进行改良。
首先是关于urlretrieve方面,很多情况下,我们会发现由于网络原因等,一个ts文件的下载会很慢甚至会失败,经常会抛出这样的异常(urllib.error.URLError: urlopen error _ssl.c:1039: The handshake operation timed out)针对于这种情况,我们改良这个方法,可以进行多次尝试,而且为每次尝试设置timeout。(这个是在某篇博客看到的,但是当时没保存url,现在找不到该博客,不是有意抄袭)
def OwnUrlRetrieve(url, filename, timeout):
# 改良的urlretrieve方法,主要是因为有的网站会超时,如果说ts下载速度特别慢而且经常超时可以先修改时间限制,不行就放弃吧(估计有IP的防爬)
socket.setdefaulttimeout(timeout)
try:
urlretrieve(url, filename)
except socket.timeout:
count = 1
while count <= 5:
try:
urlretrieve(url, filename)
break
except socket.timeout:
err_info = 'Reloading for %d time' % count if count == 1 else 'Reloading for %d times' % count
print(err_info)
count += 1
if count > 5:
print("download job failed!")
这样基本上会保证不会因为网络原因而中断下载任务。
其次我们将命令行部分封装到代码里,在此提示,之前的下载以及命令行等请自己注意好文件路径。
def ts2mp4(path):
#cmd命令行,如果这个方法出错了,八成是管理员权限没有赋给这个文件夹,还有就是你也可以自己用命令行执行,只是为了全自动化
cmd = 'copy /b *.ts video.mp4'
os.chdir(path)
os.system(cmd)
下面我们可能还是感觉这不是很智能,而且没有应用于爬虫。
摆在我们面前的第一个问题是,给出一个url我就能找到正确的index.m3u8文件,请注意是正确的。
在给出一段url之后,我们利用webdriver可以找到该网页中的视频url数据,我比较常用的可能有两个方面,第一个是通过标签检索,这个需要有一些网页开发的经验,比如说js里的document.getElementById()等等的,在我们的爬虫中是这个(driver.find_element_by_id),下面给出一篇博客,有好多这种方法(https://www.cnblogs.com/youngleesin/p/10447907.html),第二个是根据responsetext自己去找相关url,这个因为没法普遍应用于所有网页,所以就不推广了。
在进行这部分前你需要先下载好chorme驱动等相关配置,下面代码中的两个本地地址,D盘的是我浏览的exe执行文件地址,E盘的是python环境中的驱动包地址,关于这个包下载的给出一篇博客(https://blog.csdn.net/muriyue6/article/details/101440353)
下面给出相关代码
def download_m3u8(page_url, path_m3u8):
print('-' * 70)
print('Downloading M3U8 File...')
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.binary_location = r"D:\Google\Chrome\Application\chrome.exe"
driver = webdriver.Chrome(
executable_path=r'E:\Anaconda3\Lib\site-packages\selenium\webdriver\chrome\chromedriver.exe',
options=chrome_options)
driver.get(page_url)
frame = driver.find_element_by_id("")#这没写是为了不侵权,狗头保命
#这句就是精髓,找到对应的iframe从而找到index.m3u8的地址,这个需要根据网页来定,方法不一定根据id,你有网页开发经验的话就很好理解
m3u8_url = frame.get_attribute('src').split('?')[1].split('&')[0].split('=')[1]
#这句话也是你要拆好这个参数
OwnUrlRetrieve(m3u8_url, path_m3u8, 20)
driver.quit()
time.sleep(1)#防止本机卡的一些故障
print('-' * 70)
return 'https://' + m3u8_url.split('/')[2]
好了,到这里我们的主要功能都说完了,下面有几个小tips要提出。
第一个坑,我在刚才说的时候提到的正确的m3u8文件,有很多网站呢,他很坏,有不止一个m3u8文件,可能是两个,而第一个文件经常会被我们所找到,但是这个文件不包含ts文件信息,而是第二个文件的相对路径,所以我们找到第一个文件之后,不需要再去遍历整个网页去找第二个文件,而是改写我们之前的方法,有一些聪明的小伙伴可能发现我上面的一段代码只写了if,下面给出全代码。
def get_ts_urls(path_m3u8, filename, base_url):
# 将index.m3u8文件解读为数组
print('-' * 70)
print('Analysising M3U8 File...')
urls = []
with open(path_m3u8 + filename,"r") as file:
lines = file.readlines()
for line in lines:
if line.endswith(".ts\n"):
urls.append(base_url+ line.strip("\n"))
if(len(urls) > 0):
print('-' * 70)
return urls
else:
with open(path_m3u8 + filename, "r") as file:
lines = file.readlines()
for line in lines:
if line.endswith(".m3u8"):
urls.append(relative_path(base_url) + line)
if(len(urls) == 1):
OwnUrlRetrieve(urls[0], path_m3u8 + filename,20)
base_url = urls[0]
results = get_ts_urls(path_m3u8,base_url)
return results
else:
urls[0] = 'error'
return urls
第二个算是一个小建议,当我们需要下载多集资源的时候,我们可以通过更改url的方式来使得程序更智能化。
第三个呢,就是有一个可以改进的地方,那就是可不可以用多线程来实现ts文件的下载,这样可以加速我们的ts文件下载。之前的urls的list其实就是任务池,如果有大佬写出了这样的代码,欢迎大佬联系我([email protected])。
最后的最后,我全部的代码做了整合之后(还有一些进度条功能)放在CSDN资源里面,希望支持,(苦逼的孩子有时候需要下训练集需要积分)
资源链接:(https://download.csdn.net/download/weixin_41084548/12209564)
文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态
文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境
文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn
文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker
文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机
文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk
文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入
文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。 Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。
文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动
文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计
文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图
文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法