12306数据爬取及处理
Published by Shangyu Liu,
爬虫使用python的requests库,简单方便,循环爬取多个url时会中途断掉,发现是403错误,requests.get()返回非常好的数据格式,提供了超级好用的json解析函数,将结果(某个属性对应的值)解析为json对象。但同时requests.get()还返回了其他数据,比如status_code,即http请求状态码;再如headers
tips:查看一个对象的属性可以用obj.__dict__来查看
tips:python的循环语句写法很多,比如可以print[item for item in arr.items()]
tips:启动mongodb,要用sudo,要加—dbpath,是mongodb的安装路径,启动命令为mongod
进度:
北京ing