Python爬虫批量爬取网页数据并保存到Excel中

Python爬⾍批量爬取⽹页数据并保存到Excel中⽂章⽬录

1、环境准备

pip install requests

pip install re

pip install openpyxl

2、源代码

import requests

import re

演员于慧import openpyxl

# 要爬取的⽹页

baseurl ='zhuanlan.zhihu/p/357510629'

# 创建Excel表并写⼊数据

wb = openpyxl.Workbook()# 创建Excel对象银行从业资格证书

ws = wb.active # 获取当前正在操作的表对象

# 往表中写⼊标题⾏，以列表形式写⼊！

ws.append(['事件名称', '时间', '地点名称', '事件简介'])

# 请求头

headers ={

'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',

'Connection':'keep-alive',

'User-Agent':'Mozilla/5.0 (X11; Linux x86_64; rv:60.0) Gecko/20100101 Firefox/60.0',

怎么剥芒果皮'Upgrade-Insecure-Requests':'1'

}

content = (baseurl,headers=headers).content.decode('utf-8')

# 事件名称

event_name = re.findall(r"<td>事件</td><td>(.+?)</td>",content)

print(event_name)

# 时间

start_time = re.findall(r"<td>时间</td><td>(.+?)</td>",content)

print(start_time)

# 地点名称

李亚鹏初恋

area_name = re.findall(r"<td>地点</td><td>(.+?)</td>",content)

print(area_name)

# 事件简介

introduction = re.findall(r"<td>简介</td><td>(.+?)</td>",content)

print(introduction)

于正秒删

for i in range(len(event_name)): # 每页25条数据，写⼊⼯作表中

电脑的功率ws.append([event_name[i], start_time[i], area_name[i], introduction[i]])

wb.save('数据.xlsx')# 存⼊所有信息后，保存为filename.xlsx