python爬虫之爬取网页并保存(简单基础知识)

python爬⾍之爬取⽹页并保存（简单基础知识）抓取⽹页效果图（代码在最后）：

金融学专业就业方向

基础知识认识

⾸先导⼊所需要的库

from fake_useragent import UserAgent#头部库

炎亚纶的妹妹

quest import Request,urlopen#请求和打开

from urllib.parse import quote#转码

牛肉火锅的做法from urllib.parse import urlencode#转码

先获取⼀个简单的⽹页

url ="www.baidu/?tn=02003390_43_hao_pg"#获取⼀个⽹址

response = urlopen(url)#将⽹址打开

info = ad()#读取⽹页内容

info.decode()#将其转码，utf-8

⼩知识

随机获取⼀个头部郭京飞武林外传

导⼊专⽤库

from fake_useragent import UserAgent#头部库UserAgent().random

ua.choram#这两种都可以

就可以随机获得⼀个头部。

将头部添加到headers中

⾸先将随机获得的头部保存在headers中

headers ={"User-Agent":UserAgent().random}

请求

request = Request(url,headers=headers)

获取⼀个⽹页

url ="www.baidu/?tn=02003390_43_hao_pg" headers ={"UserAgent":UserAgent().random}#头部request = Request(url,headers = headers)#请求response = urlopen(request)#打开

info = ad()#读取

info.decode()#转码

这样就可以以电脑的头部获取了⼀个⽹页。

转码：将中⽂转成⽹页编码

#转码

from urllib.parse import quote

quote("百度")

入党动机范文

添加到url中：

url ="www.baidu/s?wd={}".format(quote("百度"))

urlencode转码

quest import Request,urlopen

from urllib.parse import urlencode

args ={

"wd":"百度"

,"ie":"utf-8"

}

urlencode(args)

url ="www.baidu/s?{}".format(urlencode(args))

会⾃动连接：&

案例

爬取⼏个⽹页并保存

简单的爬取⼗页

#爬取贴吧

from fake_useragent import UserAgent

quest import Request,urlopen

from urllib.parse import quote

from urllib.parse import urlencode

headers ={"User-Agent":UserAgent().random}

jihe =[]

for i in range(0,501,50):

url ="tieba.baidu/f?kw=%E5%B0%9A%E5%AD%A6%E5%A0%82&ie=utf-8&pn={}".format(i) headers ={"User-Agent":UserAgent().random}

request = Request(url,headers=headers)

response = urlopen(request)

info = ad().decode()

凤跖jihe.append(info)

print("第{}页保存成功！".format(int(i/50+1)))

使⽤函数格式，并保存到本地

python爬虫之爬取网页并保存(简单基础知识)

发布评论取消回复

最近发表

热门文章

标签列表