python爬虫URL编码和GETPOST请求 | python爬虫实战之三

 阿里云安全     |      2020-04-01 00:00:00

urllib.parse模块

该模块可以完成对url的编解码。
先看一段代码,进行编码。

image.png
image.png

此时查看结果,程序显示TypeError错误,urlencode函数第一参数要求是一个字典或者二元组序列。
我们修改代码:

from urllib import parse

d = {
      'id':1
      'name': 'tom'
}

url = 'http://www.magedu.com/python'
u = parse.urlencode(d)
print(u)

执行结果:

image.png

我们将结果拼接:

url = 'http://www.magedu.com/python?id=1&name=tom'

此时,类似于查询字符串,相当于get方法
若再次修改:

url = 'http://www.magedu.com/python'
body 'id=1&name=tom'

则此时相当于post请求。

from urllib import parse

d = {
      'id':1
      'name': 'tom'
      'url': 'http://www.magedu.com/python?id=1&name=tom'
}

u = parse.urlencode(d)
print(u)

执行结果:

image.png

我们修改name为“张三”:

'name': '张三'

执行结果:

image.png
image.png

从运行结果来看冒号、斜杠、&、等号、问号等符号全部被编码了,%之后实际上是单字节十六进制表示的值。

一般来说url中的地址部分, 一般不需要使用中文路径, 但是参数部分, 不管GET还是POST方法, 提交的数据中,可能有斜杆、等号、问号等符号,这样这些字符表示数据,不表示元字符。如果直接发给服务器端,就会导致接收方无法判断谁是元字符, 谁是数据了。为了安全, 一般会将数据部分的字符做url编码, 这样就不会有歧义了。后来可以传送中文, 同样会做编码, 一般先按照字符集的encoding要求转换成字节序列, 每一个字节对应的十六进制字符串前加上百分号即可。

网页使用utf-8编码:

image.png

之前都是进行编码过程,现在来看一下解码的过程:

from urllib import parse

d = {
      'id':1
      'name': 'tom'
      'url': 'http://www.magedu.com/python?id=1&name=tom'
}

u = parse.urlencode(d)
print(u)

x = parse.unquote(u)
print(x)

执行结果:

image.png

以上就是对parse模块的介绍,其余的我们不再进行演示了,下面来了解method方法。

提交方法method

最常用的HTTP交互数据的方法是GET、POST。

GET方法, 数据是通过URL传递的, 也就是说数据是在HTTP报文的header部分。POST方法, 数据是放在HTTP报文的body部分提交的。
数据都是键值对形式, 多个参数之间使用&符号连接。例如a=1&b=abc

GET方法

连接 必应 搜索引擎官网,获取一个搜索的URLhttp://cn.bing.com/search?q=马哥教育
需求
请写程序完成对关键字的bing搜索, 将返回的结果保存到一个网页文件。

from urllib import parse

base_url = 'http://cn.bing.com/search'
d = {
      'q':'马哥教育'
}

u = parse.urlencode(d)
url = '{}?{}'.format(base_url, u)

print(url)
print(parse.unquote(url))

执行结果:

image.png

此时不能发出请求。我们添加代码:

from urllib.request import urlopen, Request

ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"

req = Request(url, headers={
    'User-agent':ua
})

with urlopen(req) as res:
    with open('o:/bing.html', 'wb+') as f:
        f.write(res.read())
        f.flush()

程序执行成功。这是对特定页面的爬取。

image.png
image.png

POST方法

http://httpbin.org/ 测试网站

image.png
image.png

我们来测试一下:

from urllib import parse
from urllib.request import urlopen, Request
import simplejson

url = 'http://httpbin.org/post'  # POST
data = parse.urlencode({'name':'张三,@=/&*', 'age':'6' })    # body
ua = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36"

req = Request(url, headers={
    'User-agent':ua
})

print(data)

with urlopen(req, data=data.encode()) as res:  # POST请求,data不能为None
    text = res.read()

执行结果:

image.png

打印一下d的类型

print(type(d))

执行结果:

image.png

通过这种方式就实现了post交互,我们将data提交上去,就是发送post请求,如果对方的网站有响应,会返回数据,返回的数据是正好是json,所以对其用simplejson进行转换。我们是需要根据网站返回的结果,去选择合适的方法处理转换数据。

配套视频课程,点击这里查看

获取更多资源请订阅Python学习站