python爬虫URL编码和GETPOST请求 | python爬虫实战之三-阿里云安全-阿里云服务-米姆科技官方网站

python爬虫URL编码和GETPOST请求 | python爬虫实战之三

阿里云安全 | 2020-04-01 00:00:00

urllib.parse模块

该模块可以完成对url的编解码。
先看一段代码，进行编码。

此时查看结果，程序显示TypeError错误，urlencode函数第一参数要求是一个字典或者二元组序列。
我们修改代码：

from urllib import parse

d = {
      'id':1
      'name': 'tom'
}

url = 'http://www.magedu.com/python'
u = parse.urlencode(d)
print(u)

执行结果：

我们将结果拼接：

url = 'http://www.magedu.com/python?id=1&name=tom'

此时，类似于查询字符串，相当于get方法
若再次修改：

url = 'http://www.magedu.com/python'
body 'id=1&name=tom'

则此时相当于post请求。

from urllib import parse

d = {
      'id':1
      'name': 'tom'
      'url': 'http://www.magedu.com/python?id=1&name=tom'
}

u = parse.urlencode(d)
print(u)

执行结果：

我们修改name为“张三”：

'name': '张三'

执行结果：

从运行结果来看冒号、斜杠、&、等号、问号等符号全部被编码了，%之后实际上是单字节十六进制表示的值。

一般来说url中的地址部分，一般不需要使用中文路径，但是参数部分，不管GET还是POST方法，提交的数据中，可能有斜杆、等号、问号等符号，这样这些字符表示数据，不表示元字符。如果直接发给服务器端，就会导致接收方无法判断谁是元字符，谁是数据了。为了安全，一般会将数据部分的字符做url编码，这样就不会有歧义了。后来可以传送中文，同样会做编码，一般先按照字符集的encoding要求转换成字节序列，每一个字节对应的十六进制字符串前加上百分号即可。

网页使用utf-8编码：

之前都是进行编码过程，现在来看一下解码的过程：

from urllib import parse

d = {
      'id':1
      'name': 'tom'
      'url': 'http://www.magedu.com/python?id=1&name=tom'
}

u = parse.urlencode(d)
print(u)

x = parse.unquote(u)
print(x)

执行结果：

以上就是对parse模块的介绍，其余的我们不再进行演示了，下面来了解method方法。

提交方法method

最常用的HTTP交互数据的方法是GET、POST。

GET方法，数据是通过URL传递的，也就是说数据是在HTTP报文的header部分。POST方法，数据是放在HTTP报文的body部分提交的。
数据都是键值对形式，多个参数之间使用&符号连接。例如a=1&b=abc

GET方法

连接必应搜索引擎官网，获取一个搜索的URLhttp://cn.bing.com/search?q=马哥教育
需求
请写程序完成对关键字的bing搜索，将返回的结果保存到一个网页文件。

from urllib import parse

base_url = 'http://cn.bing.com/search'
d = {
      'q':'马哥教育'
}

u = parse.urlencode(d)
url = '{}?{}'.format(base_url, u)

print(url)
print(parse.unquote(url))

执行结果：

此时不能发出请求。我们添加代码：

from urllib.request import urlopen, Request

ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"

req = Request(url, headers={
    'User-agent':ua
})

with urlopen(req) as res:
    with open('o:/bing.html', 'wb+') as f:
        f.write(res.read())
        f.flush()

程序执行成功。这是对特定页面的爬取。

POST方法

http://httpbin.org/ 测试网站

我们来测试一下：

from urllib import parse
from urllib.request import urlopen, Request
import simplejson

url = 'http://httpbin.org/post'  # POST
data = parse.urlencode({'name':'张三,@=/&*', 'age':'6' })    # body
ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"

req = Request(url, headers={
    'User-agent':ua
})

print(data)

with urlopen(req, data=data.encode()) as res:  # POST请求，data不能为None
    text = res.read()

执行结果：