python采集直播间数据_利⽤Python爬⾍爬取⽃鱼直播间信
息,以及直播的实际⼈数!...
⾸先我准备利⽤mysql来存储我爬取的信息,建⼀个host表如下:
水漫帝都
燃烧剧情详细介绍然后下载pymysql ,利⽤它与数据库链接,因为在这⾥我只涉及到写⼊的操作:
污到女生滴水的句子
Unit_Mtsql
然后就是使⽤Beautifulsoup框架对⽃鱼的链接进⾏解析,为了使⽤的⽅便,⾃⼰写了⼀个host类,主要⽤于存储直播间的相关信息。基本思路是:1.获取⽃鱼的⼏⼤模块,⽃鱼⼀共有7个模块:⽹游晋级,单机热,⼿游休闲等  。2.获取每个模块的⼦模块 3.从每个⼦模块中到旗下的直播间信息。
熊乃瑾演过的电视剧
最后直接运⾏get_info()就⾏
结果如下:
但是程序到这似乎还有两点没有解决:
1.⽃鱼的关注数是使⽤gif图⽚加载。暂时还没有发现获取每个直播间关注数的⽅法。几号冬至?
2.⽆法到全部的直播间信息。
这两个问题后⾯再解决。
通过对⽃鱼api数据接⼝的分析,我到了⽃鱼后台的online实际⼈数。因此我通过了爬⾍爬取了在线的⼈数。
在⽃鱼直播的后台数据解析的过程我发现了⼀个数据接⼝,这个数据接⼝包含有:online关键关键数据。个⼈估计是⽃鱼直播间的实际⼈数。
通过对数据的分析,这个字和热度呈正相关。真实性⽐较⾼。
李玲玉我利⽤⽃鱼的热度和实际⼈数的⽐值 coefficient(这个系数)表⽰⽃鱼对该主播的⽀持情况。
----------------------------------------------------------------------------------------分割线-----------------------------------------------------------------------------------
再来更新⼀波:通过对⽃鱼的后台数据的分析到了⽃鱼的分页数据,也就是可以爬取⽃鱼的所有直播间的信息。
我编译了相关代码,只要你安装了mysql,直接运⾏可执⾏⽂件。 可以⾃动完成建表爬取过程,不需要安装相关依赖。⽬前⽀持
Windows/MacOS系统。