百科问答小站 logo
百科问答小站 font logo



python爬虫如何处理.js链接? 第1页

  

user avatar   liu-ji-27-94 网友的相关建议: 
      

看你问题写的挺详细,值得表扬~ 时间有点晚了,我简单提示一下你。实际上这个问题很简单,甚至简单到不需要编程就可以爬下来。

我们先说沿着你的这种方法怎么继续做。第二个js文件显示乱码是因为浏览器默认的编码与文件编码不匹配,你在显示js内容的那个网页下ctrl+s把文件保存下来,然后使用sublime等编辑器,用utf-8编码格式打开。这时候乱码显示正常了,但是文件是经过混淆的。你可以随便找一个在线JS格式化网站,把代码格式化一下再重新存下来,这样看着清晰。

然后由于这里是js文件,而且是混淆过的,肯定不能用BeautifulSoup去查找字段。我们观察一下name上下文的规律,发现包含它所在字典的列表是一组一组的,前面是一个整数、一个空格、一个冒号再一个空格,然后就是列表。我们有正则表达式:

       [0-9] : [[^]]*     

可以看到所有列表组都被选中

我们将它们单独复制出来,然后再观察规律,使用以下正则表达式:

       name: "[^"]+"     

接下来我不说你也应该会了。这个手动查找的过程可以用Python的re库实现,需要记住的重要思想就是,复杂情况下的正则匹配是分阶段的,不是一上来就能匹配到最终结果。

然后包含名字的元素是可以找到的呀。你只需要在名字上右键->检查,就能自动跳到它的源码处

既然我们都能找到它的源码了,直接利用JQuery选择器在控制台就可以得到结果。首先引入JQuery

       var jquery = document.createElement('script');   jquery.src = 'https://code.jquery.com/jquery-3.3.1.min.js'; document.getElementsByTagName('head')[0].appendChild(jquery);      

然后使用选择器选中含有名字的元素,使用each遍历,将他们输出

       $(".power-up-list-wrap .list ul li .name").each(function(){console.log($(this).text());});      

最后,我们如果真的在源码中找不到要的内容,一般去分析网络流量包。如下图所示,可以看到这里的response是一个json格式,里面包含了我们要的字段name,虽然是unicode编码了的

你再随便找个在线unicode编解码网站,把名字放进去解码就好了。

以上说的所有的步骤,都可以用Python实现。你需要熟练掌握正则表达式,掌握HTTP协议,掌握HTML/CSS/Javascript语言,然后对各种类型的编码的样子比较熟悉,比如base64码有很多=,unicode码以u开头等等。你可以先试试,有什么问题再来找我~




  

相关话题

  如何评价 Python 基础知识难度大吗? 
  如何看待 Python 之父 Guido 加盟微软? 
  Python和C语言哪个更容易学,感觉学了C语言有点难,只学过C语言的大学生很迷茫? 
  GitHub 上有哪些优秀的 Python 爬虫项目? 
  为什么有些人宁愿花费很多时间去自己手工配置Python环境, 也不用Anaconda? 
  Python如何实现list元素的两两相加并返回最大值? 
  请问参加数学建模,打算用python的话,需要完整的学习python所有内容,还是只要学一部分就够了? 
  python学习一定用pycharm吗? 
  为什么 Dropbox 等大型服务使用 Python 作为主要语言,即使它的效率比其他编译型语言低几个数量级? 
  pytorch ddp训练中一个node fail,导致整个训练失败,有可能解决吗? 

前一个讨论
神经网络分类训练后得到的是连续的数怎么离散?
下一个讨论
Python如何修改内置类型?





© 2024-05-20 - tinynew.org. All Rights Reserved.
© 2024-05-20 - tinynew.org. 保留所有权利