网络爬虫——豆瓣读书数据抓取——RE(正则表达式)
目标数据:(1)书名(2)书的链接地址(3)作者(4)发行时间(5)出版社
分析网页结构,通过获取网页源代码,使用re库解析网页结构,完成豆瓣读书项目中目标数据的爬取。
源码
import requests
import re
def getcode(url):
url = url
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
}
response = requests.get(url,headers=headers)
response.encoding = 'utf_8'
code = response.text
return code
def parse_page(code):
ulist = []
pattern = re.compile('
本博客所有文章除特別声明外,均采用
CC BY 4.0
许可协议。转载请注明来源
michaelming
!