zoukankan      html  css  js  c++  java
  • 光棍节之夜,用数据分析帮女神学姐选婚房

    (本文成文于2015年11月12日,为作者原创,发布在博客园方便诸君阅读)

    前段时间发了一篇分析房价的文章,于是这两天在微信上咨询我的朋友络绎不绝。今天是光棍节,我什么都没抢到。下午,有一位学姐在微信上找我,怀着激动的心情打开微信。

    学姐说,“看到你之前发的文章了,能不能帮我在北京选一套婚房啊?”

    学姐求我,焉有不应。于是,我们约了今天晚上在北邮校园的零一咖啡厅见面。学姐是我们实验室比我大两级的女神,追求者众,据说要找男朋友只找BAT三家的高富帅,听说后来找了个360的男朋友。毕业两年,就准备买婚房了,太令人羡慕了。看看我能不能帮忙吧!

    坐在咖啡厅,我重新运行了数据采集程序,抓取光棍节当天所有的二手房数据,这个过程要花15分钟。趁着这个时候,我开始询问学姐对婚房具体需求。

    学姐说,她希望能找面积在70平以上,130平以下的比较新的房子。至于预算,现在两家人拿出了180万的首付,我当时就震惊了。我帮她算了一下,她男友的工资一个月两万,按照贷款三十年,每个月还款不超过收入的51%计算,总共能贷大概140万。因此,预算在320万左右。

    正好15分钟过去,数据采完了,总共10W套左右,基本上包括了绝大多数北京二手房。大概是下面这个样子(省略了一部分信息):

    image

    可选数量:10W套

    我按照学姐的要求,选择了70到130平,价格在350万以下的所有房子,总共3W套。看来可选择的还挺多的啊。平均面积93平,单价2.34万。

    按面积和价格筛选:30498套

    她突然又说,不喜欢太老的房子。

    确实如此,房子不能太老,否则水暖电和房子的质量都会比较差,以后也很难出手。于是,我用正则表达式,从每个房子的全部信息里,抽取房子的年份,并选择1997年以后的房子。97年以后,大户型开始多了起来。看了看,还有2.5万套左右。

    选择1997年之后:2.5W套

    学姐又说,她不想上班太远,位置也不想太偏。

    我心想,恩,要离老公近一点,可是,怎么定义不远呢?我打开了地图,告诉她,你来选一个区域范围吧!

    学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:

    image

    这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。我觉得很有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为什么不考虑呢?

    她说,“男朋友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,所以当然要买长安街以北的房子啦!”

    她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,连我都听说过天通苑国的传言,每天出入境极其困难,她男朋友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子(男默女泪)。

    image

    我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。一个表达式跑下来,总共只剩下2400套左右的房子了。

    选定地图区域:2400套

    按照不同区域进行划分,就能看到下面的柱状图:

    image

    看来基本上只能在朝阳,海淀,燕郊三个地方买房子了。学姐不会考虑燕郊。她说,居然还有西城区的房子!

    我也深感奇怪,1998年后,居然还有单价在5W以内的西城区的房子?看了一下,西城有18套,东城有17套。

    如果能买到西城的房子,学姐真是赚大了!于是我赶紧检索那些西城的房子出来:

    image

    单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另外一个是商住两用的房子。

    学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。

    学姐说,坚决不要地下室,而且一定能落户口。

    这个也难不倒我,中介当然不会傻到在标题上标注地下室和商住两用。但通常商住两用,会标明“不限购”,各种“大厦”,“中心”,“投资”的,肯定都是无法落户的,用关键字筛掉它们!

    keywords = re.compile(u'商|地下|限购|大厦|中心|投资');

    学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,一定要带客厅”。我想了几秒钟,看来还得正则表达式出马:

    housetype = re.compile(u'(2|3)室(1|2)厅');

    这样,西城东城的房子彻底干掉了,一套都没有。我告诉学姐,你现在只能选择朝阳和海淀的房子了。此时,可选的房子数量共计1000套左右,只占总数的不到1%。

    不要小产权,商住两用和地下室,两室/三室带客厅:1000套

    接下来按照区域选房子。我们按照区域排序分组并求数量,得到了下面这张表:

    image

    学姐问道,这么多商圈,很多地方听都没听过,怎么选?我把数据导出成文件,导入到基于百度地图的可视化工具工具里,汇出了这样的一张图,每个地方有多少套房子,一目了然。按照大区来划分,可选项主要集中在北苑,清河,望京和十里堡附近。

    image

    学姐想了想,说,男朋友所在的科技公司在东边,我在中关村上班,所以北苑应该是个不错的选择,正好是两个人的上班的中点,酒仙桥地铁并不方便,所以暂时先不考虑。

    啊,学姐好赞! 现在应该比较明确了。

    我们来重点考察一下北苑,按照小区来划分(PID是数量,year为小区平均年份,单价为平均单价)

    image

    我们将地图缩放到北苑,每个小区有多少套合适的房子,便可一目了然。

    image

    学姐说,这价格差别还是挺大的,从2.7W到3.9W都有。为什么区别这么大呢?

    我说,这可能和房子年份有关,越新的小区,房子肯定会越贵,为了证明我的猜测,我做了如下的线性回归曲线:

    image

    经过计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来说,建造年份和价格强相关。

    为什么天怡家园和茉藜园只有一条秋实街相隔,二手房可选择性(天怡家园6套,茉藜园51套)却差别这么大呢?仔细对比了两个小区的基本信息,可能原因有两个,茉藜园(3559户)比天怡家园(690户)的规模大了很多,而且天怡家园是部委联合建房,所以相对来说多一些。整体交易活跃度不高。

    选择具有性价比的房子

    学姐说,现在硬性条件都满足了,怎么来选择最有性价比的房子呢?

    先说价格,学姐突然问我,成交价就是中介网上标明的价格吗? 我偷笑了一下,心想,“看来学姐是完全不懂啊”。中介当然要收中介费的啊,某著名中介一般是成交价的2.7%。下面是商品普通住宅的额外支出情况:

    image

    我接着说道,这是普通商品房的税率,如果是经济适用房,需要交纳10%的综合地价款,如果是公房,还需要交纳土地出让金…

    学姐打断我,这个太复杂了!

    确实啊,这些政策足够写好几张纸,我自己也不是很清楚。我们先考虑那个表里的情况吧。

    修正实际交易价格

     

    其实仔细观察中介的标签就能发现,如果是满五年唯一或满两年唯一,一定会标上。如果不唯一,就什么都不标。从这些特征,能够计算出每套房子的实际成交额,这个步骤可能会出错,。

    我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:

    • 户型:仅次于位置的最重要因素
    • 采光:即使做不到明厨明卫,也最少做到明室明厅。
    • 学区:旁边是否有不算太差的幼儿园和小学
    • 升值空间:房子未来是否好出手。

    学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?

    这可让我犯了难,户型图都可以查到,但让程序去做自动识别,并计算采光,这实在是太难了,只能让学姐自己来选了。

    采光也没法自动识别,但能通过中介给出的评论中提取关键词,绘制词图,提高筛房效率。

    学区和升值空间相对比较容易,把北苑所有的学校,幼儿园,以及未来地铁的建设情况绘制出来,即可作为直接的参考。

    image

    即使在2020年,北苑的地铁线路依旧不够发达,只增加了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,可以认为未来有较好的升值空间。

    绘制北苑所有的幼儿园

    以学姐的情况,估计以后还会换学区房,我们姑且将附近的幼儿园绘制出来:

    image

    (时间所限,笔者没有标注每个幼儿园的情况,之后有专门的学区房专题进行分析)

    提取中介点评关键字,做成词云,方便观察

    由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词。

    由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词:

    image

    综合评价排序表格

    为了方便学姐快速地从90套房子中选取自己中意的房子,我生成了这些房子的词图,坐标图和房型图。

    另一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢

    一般来说,看房的人越多越火,但不排除挂出来很久都没人看上,因此用每月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。因此,使用下面的公式来计算房子的评价:

     

    综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8

    (获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的)

    我花了五分钟生成了一个word文档能非常方便地进行对比,选择恐惧症福音,就像下面这个样子:

    image

    我接着说,接下来就靠你和你男朋友对户型进行筛选,选出20-30套觉得不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后确定最合适的房子,这样会比较有效率。

     

    学姐看完以后,非常开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧

    这时,学姐掏出了一个非常精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。

    心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。

    学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。

    我:。。。。。。

    这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男友来了。

    她一看手机,啊,我男朋友来接我了,学弟今天谢谢你!于是拿起包包转身急匆匆地就出门了。。。

    哎,准备回家吧,看看能不能趁双十一回去抢个袜子。正要收拾电脑,

    “学姐,你的优盘!”

    备注:

    本文成文于2015年11月12日,,请联系微信公众号“沙漠之鹰”。所有数据和分析都来自真实数据,但并不保证事件和人物存在,如有雷同,纯属巧合。

    1.越新的小区越贵?

    为了证明我的猜测,我根据北苑20个小区的价格和年份进行计算,皮尔逊相关系数在0.63左右,可见,对于比较新的非学区房来说,建造年份和价格强相关。

    2.计算二手房税费和手续费的方法

    中介当然不会傻到真正交多少税写在页面上,但仔细观察页面标签就能发现,如果是满五年唯一或满两年唯一,一定会标上。如果不唯一,就会标“房本满两年”。从这些特征,能够计算出每套房子的实际成交额。

    目前北京二手房个人所得税的计算只要能核实房屋原值,均要按照(出售价— 房屋原值 — 合理费用)× 20%的方法计算,不能核实原值的,个税以本次房屋交易价格按核定征收率1%计算。但由于本次计算不能知道房屋原值,因此按1%处理。

    税费因政策更新已经修改多次,因此网络上说法不一,异常复杂,表格中的数据,是我按照330新政的信息校对过的。

    可笑的是,同一套房,不同中介代理标注的信息都不一样:

    image

    3.为什么要自己选好大致的区域

    每个中介的门店只负责特定的范围。因此虽然中介能提供一个小区里的详细信息,但很难也通常不会帮你介绍其他位置的房型。因此按照需求明确自己所需的区域,再去选择当地的门店,是非常重要的。

    4. 获取房屋在中介登记的时间

    信息中并没有明确提到登记时间,这对我们计算房子综合评价很重要。怎么办呢?

    笨蛋!当然是获取第一个房评人的评论时间啊,他是登记这个信息的人!

     

     

    沙漠之鹰:以程序员的视角,分析数据,解构模式,发现洞见,欢迎关注微信公共号:

    image

  • 相关阅读:
    字符串替换
    字符串查找
    字符串比较
    字节与字符串相互转换
    1365. How Many Numbers Are Smaller Than the Current Number
    1486. XOR Operation in an Array
    1431. Kids With the Greatest Number of Candies
    1470. Shuffle the Array
    1480. Running Sum of 1d Array
    【STM32H7教程】第56章 STM32H7的DMA2D应用之刷色块,位图和Alpha混合
  • 原文地址:https://www.cnblogs.com/buptzym/p/5347943.html
Copyright © 2011-2022 走看看