TripAdvisor Scrapy 实例

爬虫需求

爬取洛杉矶地区的餐厅和酒店的相关信息

餐厅信息包括:

餐厅名称
餐厅评星（几颗星）
餐厅排名（针对洛杉矶而言）
餐厅价格区间
餐厅菜品种类
餐厅地点
附近旅馆
附近餐厅
附近景点
用户评价

酒店信息包括：

酒店名称
酒店价格区间
酒店房间数
酒店评星
酒店设施
酒店特色
酒店星级
酒店房间类型
酒店风格
酒店地点
附近餐厅
附近景点
用户评价

实现

Scrapy + MongoDB
代码: xxxx

注意事项

使用scrapd + spiderkeeper 进行可视化部署
log文件保存(settings.py中设置LOG_FILE = “debug.log”)
使用 scrapy shell 进行xpath语法规则的调试以确保得到想要的结果

结果

10522 条餐厅数据 (50M)
1000 条酒店数据 (100M)

Python Web Crawler

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

PyTorch-BigGraph 概要 Previous

Blocking and Relational Entity Resolution Next

TOC