网络爬虫——豆瓣读书数据抓取——RE(正则表达式)


网络爬虫——豆瓣读书数据抓取——RE(正则表达式)

目标网址:https://book.douban.com/

目标数据:(1)书名(2)书的链接地址(3)作者(4)发行时间(5)出版社
在这里插入图片描述
分析网页结构,通过获取网页源代码,使用re库解析网页结构,完成豆瓣读书项目中目标数据的爬取。

源码

import requests
import re

def getcode(url):
    url = url
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
    }
    response = requests.get(url,headers=headers)
    response.encoding = 'utf_8'
    code = response.text
    return code

def parse_page(code):
    ulist = []
    pattern = re.compile('

输出如下:
在这里插入图片描述


版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 michaelming !
 上一篇
风格迁移——环境配置 风格迁移——环境配置
卷积神经网络:(一)风格迁移——环境配置引言本文主要在windows环境下搭建python环境,用python从零入手搭建一个简单的风格迁移模型。若为macos,linux可以参考其他博客搭建环境,再搭建该模型。 转载请注明出处:
2018-10-27
下一篇 
网络爬虫——猫眼电影数据抓取——RE(正则表达式) 网络爬虫——猫眼电影数据抓取——RE(正则表达式)
网络爬虫——猫眼电影数据抓取——RE(正则表达式)猫眼电影榜单网址:https://maoyan.com/board/4 目标数据描述:(1)排名 (2)电影名称 (3)主演 (4)上映时间 (5)评分任务要求 (1)使用requests
2018-05-29
  目录