导读:直接上干货,爬取抖音小姐姐视频列表,并去水印下载(仅供学习使用,不做商业用途,如有侵权,联系作者删除);接18年初,Python基础篇更新。
比如我想获取抖音网红“惠子”小姐姐的主页列表视频,第一步在抖音上打开惠子的主页,右上角点击一下,可以看到一个分享按钮,点击分享,找到复制链接-> http://v.douyin.com/9GEGSp/ 。把链接放到浏览器中短链接被自动解析,变成长链接: https://www.iesdouyin.com/share/user/73838190950?u_code=128dfi636&sec_uid=MS4wLjABAAAAHmQ4DqHKN8IdfWWd52sYaGS6zaZaOTghOZ4ysZ0z_YM×tamp=1571884619&utm_source=copy&utm_campaign=client_share&utm_medium=android&share_app_name=douyin ,在长链接中就可以看到一些用户信息,有没有用我们先列出来!
key | value |
---|---|
user | 73838190950 |
u_code | 128dfi636 |
sec_uid | MS4wLjABAAAAHmQ4DqHKN8IdfWWd52sYaGS6zaZaOTghOZ4ysZ0z_YM |
timestamp | 1571884619 |
utm_source | copy |
utm_campaign | client_share |
utm_medium | android |
share_app_name | douyin |
打开浏览器开发者工具,找到对应的视频列表请求接口,一个一个排查终于找到这个链接:https://www.iesdouyin.com/web/api/v2/aweme/post/?sec_uid=MS4wLjABAAAAHmQ4DqHKN8IdfWWd52sYaGS6zaZaOTghOZ4ysZ0z_YM&count=21&max_cursor=0&aid=1128&_signature=QOtJJBARHVwzHUNLqlT-mEDrST&dytk=593d265a74e3384e06112b423ef268da
key | value |
---|---|
sec_uid | MS4wLjABAAAAHmQ4DqHKN8IdfWWd52sYaGS6zaZaOTghOZ4ysZ0z_YM |
count | 21 |
max_cursor | 1567769380000 |
aid | 1128 |
_signature | F1OCixATSudkpYjkPsX5FRdTgp |
dytk | 593d265a74e3384e06112b423ef268da |
返回的数据:
通过返回的参数可以看到我们需要的数据都在这里,在这里不着急解析数据,通过对比请求参数,别的参数都是现成的在主页代码中都可以找到,基本可以确定参数是加密字符串,接下来我们就跟踪这个参数的形成过程。通过搜索,确定了它在中生成的 ,截图如下:
通过截图我们知道, 是通过对象获取的,顺着我们查看它的生成过程:截图如下:
它是在生成的,截图如下:
通过分析, 获取比较复杂,js代码已经被混淆压制,直接分析算法过程比较难,但是我们可以通过执行签名的算法代码,并返回对应的签名结果。把被压过的js保存下来,执行获取参数签名。
分析完成后,开始python模拟手机数据请求:
1.读取主页链接:支持同时爬去多个小姐姐的主页视频列表,在中输入每个URL通过逗号/空格/tab/表格鍵/回车符 分割,支持多行,也可以使用命令进行指定链接,解析文本数据/命令行数据;
2.获取列表视频:
3.下载视频:
4.其他:
5.执行截图:
6.源码获取:
7.去水印说明:其实抖音列表返回了无水印视频链接和有水印链接,没有涉及对视频水印的处理