房子下月到期,近期在关注找合适房源,靠谱室友,今晚回来花了一个多小时在豆瓣看租房帖子。

深感效率之低:打开南京租房豆瓣,逐个点开帖子,首先排除非个人发布信息,留下的帖子里,排除仅限女生合租的,排除已租的,排除价格过低不靠谱的,然后开始综合评估:照片/地段/价格,有些帖子只给小区不给位置的,还得百度地图查下小区所在位置

这个工作很适合让机器人(bot)来做,找房源这件事至少有一半的工作是可以自动化的,用上简单的爬虫和正则可以过滤大量的无效信息,如果加上自然语言处理(nlp)几乎可以完成大多的内容提取

之后再加上bokeh来做交互式数据展示,自然语言处理完,我们可以得到一些关键信息,命名实体(微信号、价格、地段、图片、评论数),然后把它们结构化,让用户与数据可视化地交互(实际是使用pandas来筛选数据),基于我之前的这个工作:一种通用的可视化订阅服务,很容易按照某个指标筛选出合适的房源

前端时间有篇文章很火:硅谷码农用Python写了个机器人,租到了让女友满意的房子

这篇文章写得很漂亮,受租房困扰,本着DRY原则,一个问题只解决一次,我想解决方案把工具分享出来,让别人解决同样的问题。

决定挖坑写个租房机器人和可视化筛选工具

先挖坑 待填

先给个大纲

爬虫部分

  • scrapy/pyspider

信息提取

清洗数据

  • html -> txt

自然语言处理

  • 命名实体识别
    • 取出地段

数据检索/可视化

bokeh/pandas

根据字段筛选:

  • 价格区间
  • 开关(是否地铁站附近/阳台)
  • 整租/主卧/次卧

图片悬停/帖子超链/地图展示

why

比运行租房机器人让它找房更省力的是,写一篇文章,让同在找房子的你看到,等你说:hi,我也是技术发烧友,寻一个志趣相投的室友,周末还可以一起写个好玩的bot~

参考