网络爬虫——豆瓣读书数据抓取——RE（正则表达式）

网络爬虫

发布日期: 2018-06-09

网络爬虫——豆瓣读书数据抓取——RE（正则表达式）

目标网址：https://book.douban.com/

目标数据：（1）书名（2）书的链接地址（3）作者（4）发行时间（5）出版社
在这里插入图片描述
分析网页结构，通过获取网页源代码，使用re库解析网页结构，完成豆瓣读书项目中目标数据的爬取。

源码

import requests
import re

def getcode(url):
    url = url
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
    }
    response = requests.get(url,headers=headers)
    response.encoding = 'utf_8'
    code = response.text
    return code

def parse_page(code):
    ulist = []
    pattern = re.compile('.*?.*?(.*?)
.*?(.*?).*?(.*?)',re.S)
    items = re.findall(pattern,code)
# print(items)
    for item in items:
        ulist.append([item[1],item[0].strip(),item[2].strip(),item[3].strip(),item[4].strip()])

    return (ulist)

def main():
    ulist = []
    url = "https://book.douban.com/"
    code = getcode(url)
    ulist = parse_page(code)

    print(len(ulist))
    print()
    for i in range(len(ulist)):
        print(ulist[i])
main()