使用python爬取数据时,有时候会遇到jsonp的数据格式,由于不是json的,所以不能直接使用json.loads()方法来解析,需要先将其转换为json格式,再进行解析。在前面讲了jsonp的原理 ,这里就略过一部分。
jsonp的内容一般是这样的:
callback({ "name":"zhangsan", "age":18 })
也有有可能是这样的:
callback( 'name', (function(a,b,c){ return { name:a, age:b, gender:c } })('孙悟空',18,'男') )
这里的callback就是一个函数名,这个函数名是由后端返回的,我们需要将这个函数名提取出来,然后将其替换为一个我们自己定义的函数名,然后再将其转换为json格式,再进行解析。
这个函数名一般会包含在get请求的参数中,例如:
<script src="xxx.xxx?callback=cb"></script>
在这个url中,callback=cb是我们传给服务器的参数,我们可以理解为告诉服务器我们需要将数据传入cb这个函数中,然后服务器返回的数据就会以cb(data)的形式返回,例如:
cb({ "name":"zhangsan", "age":18 })
通常情况下服务器返回的数据调用哪个函数由传递的callback参数决定,如果我们将callback的参数改为我们自己定义的函数名,那么服务器就会返回这个函数名。
因此,我们也可以尝试将callback参数填写为空,例如:
import requests requests.get('xxx.xxx?callback=')
这样服务器就会直接返回数据而不是用函数包裹
通过字符串切片或者正则表达式来提取数据,例如:
import requests import re res = requests.get('xxx.xxx?callback=cb') # 正则表达式提取 data = re.search('cb\((.*?)\)',res).group(1) # 字符串切片提取 data = res[3:-1]
使用subprocess库执行js代码,但是jsonp返回的数据中只有一个调用函数的代码,因此我们需要提前定义一个函数,并将内容写入js文件后执行,例如:
import requests import subprocess cb_data = requests.get('xxx.xxx?callback=cb').text # 定义一个函数 js = ''' function cb(data) { console.log(data); } ''' # 将函数写入js文件 with open('jsonp.js','w',encoding='utf-8') as f: f.write(js+cb_data) # 执行js文件的同时捕获打印信息 result = subprocess.run('node jsonp.js',shell=True,stout=subprocess.PIPE) # 将结果转换为json json = json.loads(res.stdout.decode()) """ json转换时可能会出错,因此可以在定义的函数中将console.log(data) 修改为 console.log( JSON.stringify(data)) """ # 打印转换后的内容 print(json)
以上,简单的介绍了三种获取jsonp数据的方式,如果有错误或不足之处欢迎指正