• 使用scrapy进行12306车票查询


    概述

    通过12306的查询API进行查询某日火车票, 结果保存在csv文件中.

    详细

    一、环境搭建

    1. 安装配置python3.6

    示例网站使用的是python 3.6.1

    下载地址:https://www.python.org/downloads/release/python-361/

    根据自己的系统选择相应的版本

    2. 安装Twisted

    Windows:

    进入http://www.lfd.uci.edu/~gohlk...下载对应twisted

    QQ图片20180312102009.png

    转到下载目录, 命令行执行:pip install Twisted-17.9.0-cp36-cp36m-win_amd64.whl

    3. 安装Scrapy

    mac或linux:

    pip install Scrapy

    windows:

    pip install pywin32

    pip install Scrapy


    二、项目结构以及程序实现

    QQ图片20180312103634.png

    上图是使用scrapy startproject spider12306 命令生成的基本模板, 之后使用scrapy genspider search 12307.cn 生成了一个基本爬虫,在此基础上进行自己需要的爬虫改写.

    思路:

    找到网页接口——进行查询后通过chrome找到查询地址是这样的:

    image.png

    通过这个地址可以看出,查询是通过向https://kyfw.12306.cn/otn/leftTicket发送GET请求来执行查询的。参数一共有4个:

    leftTicketDTO.train_date: 日期

    leftTicketDTO.from_station: 出发站

    leftTicketDTO.to_station: 到达站

    purpos_codes:车票类型 ADULT 成人票

    现在有一个问题,出发站和到达站用的是缩写,查询返回的结果用的也是缩写,所以我们需要知道英文缩写对应的车站,之后我就找到了这个东西:

    image.png

    有一个名为:station_name 的js文件,其中就记录所有的中文站名以及其缩写。

    通过正则等方法将其保存为两个json文件(本人用的是笨办法),键值对分别是:

    站点名: 缩写 以及 缩写: 站点名 方便我们将来查询

    之后就可以编写爬虫了

    1. 根据顺序来我们先设置起始站点为查询站点缩写的js文件

    class SearchSpider(scrapy.Spider):
    
        name = 'search'
        allowed_domains = ['12306.cn']
        # 出发时间 日期如果小于今天  会报错的
        train_data = '2018-03-22'
        # 出发站
        from_station = '郑州'
        # 到
        to_station = '杭州'
    
        start_urls = ['https://kyfw.12306.cn/otn/resources/js'
                      '/framework/station_name.js?station_version=1.9048']

    2. 解析并保存结果为json文件

    if not os.path.exists('stations.json'):
        text = response.body.decode('utf-8')
        content = re.match('.+?(@.+)', text)
        if content:
            # 获取所有车站信息
            text = content.group(1)
            # 进行清洗后写入json文件
            l = text.split('|')
            a, b = 1, 2
            stations = {}
            search = {}
            while b < len(l):
                stations[l[a]] = l[b]
                search[l[b]] = l[a]
                a += 5
                b += 5
            stations = json.dumps(stations, ensure_ascii=False)
            with open('stations.json', 'w', encoding='utf-8') as f:
                f.write(stations)
            search = json.dumps(search, ensure_ascii=False)
            with open('search.json', 'w', encoding='utf-8') as f:
                f.write(search)
        else:
            (response.body.decode())

    3. 根据需要查询的内容向查询地址发出get请求并接受查询结果

    with open('stations.json', 'rb') as f:
        station = json.load(f)
    query_url = 'https://kyfw.12306.cn/otn/leftTicket/queryZ?' 
                'leftTicketDTO.train_date={}&' 
                'leftTicketDTO.from_station={}&' 
                'leftTicketDTO.to_station={}&' 
                'purpose_codes=ADULT'.format(
                    self.train_data, station[self.from_station],
                    station[self.to_station])
    yield scrapy.Request(query_url, callback=self.query_parse)

    4. 解析查询结果并保存为csv文件(可使用excel打开)

    通过观察发现,返回的结果都是用'|'隔开的,貌似只能用下标来定位, 所以采用了下面的方法,如果有更好的方法请联系我,谢谢!

    def query_parse(self, response):
        """解析查询结果"""
        text = response.body.decode('utf-8')
        message_fields = ['车次', '始发站', '终点站', '出发站', '到达站', '出发时间', '到达时间',
                          '历时', '特等座', '一等座', '二等座', '软卧', '硬卧', '硬座', '无座']
        writer = csv.writer(open('ans.csv', 'w'))
        writer.writerow(message_fields)
        infos = json.loads(text)['data']['result']
        with open('search.json', 'rb') as f:
            search = json.load(f)
        for info in infos:
            info = info.split('|')[3:]
            if info[8] == 'N':
                continue
            row = [info[0], search[info[1]], search[info[2]], search[info[3]],
                   search[info[4]], info[5], info[6], info[7], info[29],
                   info[28], info[27], info[20], info[25], info[26], info[23]]
            writer.writerow(row)
        pass

    image.png

    详细代码在例子包中, 仅供参考.....

    运行

    进入spider12306文件夹,在装有scrapy的虚拟环境或真实环境中运行

    scrapy crawl search

    即可, 然后可在运行目录找到 ans.csv 文件 打开后类似上图

    注:本文著作权归作者,由demo大师发表,拒绝转载,转载需要作者授权

  • 相关阅读:
    shell脚本day06-sed
    shell脚本day05-交互式输入与for语句
    shell脚本day04-if语句
    shell脚本day04-grep与正则表达式
    shell脚本day03-编程原理
    shell脚本day02-重定向与管道符
    编程原理大致介绍
    进程管理
    Linux网络
    shell脚本--grep以及正则表达式
  • 原文地址:https://www.cnblogs.com/demodashi/p/9452868.html
Copyright © 2020-2023  润新知