Scrapy 实例 - TripAdvisor信息抓取

TripAdvisor Scrapy 实例

爬虫需求

爬取洛杉矶地区的餐厅和酒店的相关信息

餐厅信息包括:

  • 餐厅名称
  • 餐厅评星(几颗星)
  • 餐厅排名(针对洛杉矶而言)
  • 餐厅价格区间
  • 餐厅菜品种类
  • 餐厅地点
  • 附近旅馆
  • 附近餐厅
  • 附近景点
  • 用户评价

酒店信息包括:

  • 酒店名称
  • 酒店价格区间
  • 酒店房间数
  • 酒店评星
  • 酒店设施
  • 酒店特色
  • 酒店星级
  • 酒店房间类型
  • 酒店风格
  • 酒店地点
  • 附近餐厅
  • 附近景点
  • 用户评价

实现

Scrapy + MongoDB
代码: xxxx

注意事项

  1. 使用scrapd + spiderkeeper 进行可视化部署
  2. log文件保存(settings.py中设置LOG_FILE = “debug.log”)
  3. 使用 scrapy shell 进行xpath语法规则的调试以确保得到想要的结果

结果

10522 条餐厅数据 (50M)
1000 条酒店数据 (100M)


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!