12306数据爬取及处理

Published by Shangyu Liu, May 30th, 2017

爬虫使用python的requests库，简单方便，循环爬取多个url时会中途断掉，发现是403错误，requests.get()返回非常好的数据格式，提供了超级好用的json解析函数，将结果(某个属性对应的值)解析为json对象。但同时requests.get()还返回了其他数据，比如status_code，即http请求状态码；再如headers

tips：查看一个对象的属性可以用obj.__dict__来查看

tips：python的循环语句写法很多，比如可以print[item for item in arr.items()]

tips：启动mongodb，要用sudo，要加—dbpath，是mongodb的安装路径，启动命令为mongod

进度：

北京ing