不管你是待业还是失业,在这个被互联网围绕的时代里,选择python爬虫网址不变,就多了一项技能,还怕找不到工作?,还怕不好找工作?小编就来告诉你这个专业的优势到底体现在哪里:Python爬虫爬取网易云的音乐??。
1.Python爬虫爬取网易云的音乐
在开始之前,做一点小小的说明哈:我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除!我自己有些曾经付费的Python资料现在已经学完了,有需要的可以评论区留言或者直接私信我,免费送给你们。本文需要有简单的python爬虫基础,主要用到两个爬虫模块(都是常规的)requests模块selenium模块建议使用谷歌浏览器,方便进行抓包和数据获取。Part1 进行网页分析首先打开网易云的网页版网易云然后搜索歌曲,这里我就搜索一首锦零的“空山新雨后”这时我们来观察网页的url,可以发现s=后面就是我们搜索的关键字当我们换一首歌,会发现也是这样的,正好验证了我们的想法所以下一步让我们点进去一首歌,然后进行播放,看看能否直接获取音乐文件的url,如果能,那么直接对url进行requests.get访问,我们就能拿到.mp3文件了点进*首“空山新雨后”,我们可以看到有一个“生成外链播放器”看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。好吧,不过我们不能放弃,来我们分析一下网页但当我们定位到两个最有可能出现外链的地方时,发现什么都没有不过作为“规格严格,功夫到家”的传承者,我不能放弃啊,于是我又打开了抓包工具按照常规套路,我们定位到XHR点击播放后,出现了一大堆东西,我们要做的就是找到其中的content-type为audio一类的包功夫不负有心人,在寻找了一(亿)会儿后,我找到了于是我又满怀开心的复制了这个包对应的Request-URL粘贴后访问这个url,结果非常满意,这就是我一直在找的url现在我把那个url贴出来Part2 编写爬虫程序接下来就超级简单了下面的代码是最常规的操作,应该有爬虫基础的都能看懂;如果有不懂的,注释都在上面Part3 更高级的看到这里,你可能会想,为啥根本没用selenium模块呢?能不能直接爬取任何一首我想要的歌,而不用每首都去费心费力的找一个url呢?当然可以哒!其实网易云在线播放每首歌曲时,都有一个外链地址,这是不会变的,跟每首歌的*一个id绑定在一起,每首歌audio文件的url如下:id值的获取也很简单,当我们点进每首歌时,上方会出现对应的网址,那里有id值,如下图:所以只需把上面程序中的url改成新的url即可如果还想要更好的体验效果,实现在程序里直接搜索歌曲,拿到id值,就需要用到selenium模块为什么用selenium而不用xpath或bs4?因为搜索页面的数据是动态加载出来的,如果直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我目前的技术,就只能想到使用万能的selenium模块,下面大概说明一下步骤:1.进行selenium无可视化界面设置2.导包3.指定歌曲,得到对应搜索页面的url4.获取搜索页面的html文件5.用正则模块re匹配html文件中的id值、歌名和歌手6.将id值、歌名和歌手封装成一个个元组,写入一个列表中,再进行打印7.对满意的id值可得到一个url,再用上面的程序对该url进行requests.get方法访问即可Part4 小结终究是我才疏学浅,这个找外链进行爬取的方法也存在很多不足,比如不能在线播放的歌曲是无法下载的。不过写这样一个小程序练练手,对自己能力的提高确是有极大帮助的。想自学的小白或者需要资料的大佬可以找我领取免费的 Python资料。大家共同进步!
就拿大数据说话,优势一目了然,从事IT行业,打开IT行业的新大门,找到适合自己的培训机构,进行专业和系统的学习。