Scrapy 实例 - TripAdvisor信息抓取
TripAdvisor Scrapy 实例
爬虫需求
爬取洛杉矶地区的餐厅和酒店的相关信息
餐厅信息包括:
- 餐厅名称
- 餐厅评星(几颗星)
- 餐厅排名(针对洛杉矶而言)
- 餐厅价格区间
- 餐厅菜品种类
- 餐厅地点
- 附近旅馆
- 附近餐厅
- 附近景点
- 用户评价
酒店信息包括:
- 酒店名称
- 酒店价格区间
- 酒店房间数
- 酒店评星
- 酒店设施
- 酒店特色
- 酒店星级
- 酒店房间类型
- 酒店风格
- 酒店地点
- 附近餐厅
- 附近景点
- 用户评价
实现
Scrapy + MongoDB
代码: xxxx
注意事项
- 使用scrapd + spiderkeeper 进行可视化部署
- log文件保存(settings.py中设置LOG_FILE = “debug.log”)
- 使用 scrapy shell 进行xpath语法规则的调试以确保得到想要的结果
结果
10522 条餐厅数据 (50M)
1000 条酒店数据 (100M)
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!