数据分析实践:京东众筹

假期一直想充充电,却由于这样那样的原因而耽搁了,想想也真不觉得意外。

╮(╯▽╰)╭

明天开始正式读博,之前总算又折腾了点东西,鉴于之后从事大数据方面的研究,提前整理一下自己的技术储备总是好的。于是折腾了Hadoo、Spark框架并简单接触了Scala语言,忙活了半天发现空有工具却没有数据!好在已经非常熟悉Python,随后又写了一个爬虫,把京东众筹的项目数据全抓了下来,感谢东哥!

用数据说话

其实京东众筹的数据量还是太小了,用Hadoop分析实在是大材小用。此外,所有项目文案都被图片化,不能爬取下来实践自然语言相关的智能分析,蛮可惜的。

本文研究的前提是:京东未过多干预众筹项目,其官方网站的众筹数据可信度高

众筹数据总览

截止本文动笔,爬虫遍历了全部4444个众筹项目,根据官方分类,科技大类项目的影响力与其他相比遥遥领先。

下图展示了众筹项目数量分布,显然科技类众筹项目占据了半壁江山。

众筹项目分布

从筹集资金角度来看,科技类众筹项目已经具备碾压别类项目的事实影响力,可以称得上是京东众筹事业的顶梁柱。

筹集资金分布

基于简单统计的项目解析

项目完成度简析

根据爬取的数据,统计各个官方分类所属众筹项目的完成情况,如下图所示。

筹集资金分布

上图统计的是众筹项目众筹进度的中位值,之所以不使用大众更熟悉的均值,是因为少量项目吸引了巨量人气,产生了严重的样本偏差,借由中位值则可以反应出各个项目的人气主流趋势。图中的完成度即项目的众筹进度,相比较而言,出版业相关的众筹项目几乎没有风险,回报率妥妥的!

项目成本简析

通过众筹目标来衡量众筹项目的成本,虽然不精确,但是从宏观上还是能体现出一定联系。

筹集资金分布

上图分别从众筹目标的均值和中位值衡量了各个分类下众筹项目的成本,可以看出科技类项目还是具备一定挑战性,而出版类项目毫无压力,同我们的主观经验吻合。

项目热度简析

总体来看,科技与家电类项目吸引了消费者的眼球,而均值体现出部分科技类项目得到的关注远远超过其它,这一点也比较符合长尾理论。

筹集资金分布

结合之前的总览数据,也从侧面印证了科技类项目的收益比高于其它类别,这解释了两点:

  • 为什么科技类项目以半数之众吸引了绝大多数资金。
  • 为什么发起人更喜欢众筹科技类项目。

你所不知道的众筹巨人

一个有意思的现象,有些实体(公司、集团等等)以众筹为核心经营点,至少将其作为重要收益渠道之一。

项目发起数

上图以发起人的众筹项目总数为依据,列举了前十名最活跃的众筹发起人(实体)。江苏省老龄基金是什么鬼?真会玩!另外,此前完全想不到地产业这么土豪的集团也会众筹,反而觉得有些不靠谱

支持者分布

上图给出了“巨头”所占有的支持者数据,虽然我有点没想明白地产业怎么也会众筹,但是数据打脸打得啪啪响,如果感到幸福你就跟我一起啪啪啪…嗯,跑题了。

筹集资金分布

不过,既然跟房地产挂了勾,资金流必然不会太难看。正如之前所说,严重怀疑太红火鸟科技是以众筹为核心经营点的实体,连名字都起的这么有暗示性。而江苏省老龄基金应该是众筹公益控一枚,平均每个项目都只筹集了一万上下的资金。

集资小能手

有些项目虽然人气满满,但是筹集的资金并没有多少;有些项目占了刚需之利,尽管响应者寥寥,却坐地数钱到手抽筋。我更想关注一些客户定位明晰、推广得当的项目,这类项目的支持者不一定很多,可大部分支持者都会慷慨解囊。下面以筹集基金 / 支持者数量排序给出支持者人均贡献最多的10个项目。

筹集资金分布

上图之中的某些跑步机、智能机车以及地产项目就是之前提到的典型。而麦兜旅行网和精锐纵横发起的这类项目就具有一定的参考意义,仔细看看文案也许能学到点新的技巧。不过,这里面好像又冒出来了一些不可说的东西,羞羞啊。

基于 K-Means 与 TF-IDF 算法的众筹聚类

正如之前所说,很可惜没有爬到众筹项目的详细文案,因此这些数据的实际价值不高。尽管如此,还是可以做一些基本的智能分析。

K-Means 算法主要用来实现聚类,而 TF-IDF 也是最简单的余弦相似度比较算法。它们都属于成熟、简单、有效的智能分析模型。本文进行的文本处理过程实在简单,就不在这里赘述,直接给出结果如下。

筹集资金分布

这张图画风不同是因为它是由Python直接处理、分析并绘制的。根据所有聚类的众筹项目标题分别提取出六个关键词如图示。可以看出由“无线”、“3D”、“机器人”、“智能”、“云”等引领的科技类项目是京东众筹的主流项目。而你参与进来了吗?

题外话

写这篇博客的时候,考虑到访问速度需要使用图床。结果七牛现在必须备案才能正常提供服务,可是我一直嫌麻烦懒得折腾。没办法,所有图片只能暂存在自己服务器。

鉴于这个情况,翻出以前的一个点子,准备写一个开源小项目,实现一个带属性的迷你静态文件服务器做CDN用的图床。唉,真是觉得时间不够用啊!