发布时间:2018年04月10日 18:50:50分享人:龍尋鳳来源:互联网29
拖了很久了,一个不折不扣的拖延症患者。如果不是现实再一次把我打倒谷底,我要闭着眼睛走到哪里。 从产品到数据再到分析,我似乎爱上了这种从数据中刨根问底,追踪溯源,从假设到验证到证实自己的想法,逻辑和数据的碰撞,理性和感性的碰撞。这渐渐的让我在遇到生活中的事情的时候,也容易抽取其中的问题,更清楚的去思考。 读完这本书最大的感觉是深入浅出,任何一个实际的事情都可以抽象成一个数学模型,这样更有利于看清这个问题的本质,找到解决或者提升问题的思路。一个问题摆在这里,那么与这个问题有关的数据表,文字报道,熟悉的相关人员的描述或者回答,在这个问题的分析中,都是一个不可或缺的变量,由变量到散点图,你看出了他们的分布规律,有散点图再到函数的拟合,加上控制变量在不同图形中的对比,你发现了影响问题的本质,甚至预知了将要呈现的未来(这个和黑天鹅里面的观点正好相反,他们的理论是任何可以预知的东西都是没有价值的,这个世界更多的是由小概率事件组成,从以往的数据中寻找规律毫无意义,就像金融危机,就像黑天鹅,无法预知的事物确是颠覆性的影响)。当然,我们不能因为未知而什么也不去做。数据无处不在。 书的第一章告诉我们数据无处不在,从确定,到数据分解,到评估,最后指导我们做决策,这个是一个数据分析师要做的事情。现实或者老板抛给我们一个问题,开始要做的是分解思考询问在重组,最全面客观的完善我们要分析的这份数据。还有数据是因为对比才显得有意义。 接下来我们从主观上对这件事情有个一个整体的认知,加上工作和生活的经验,我们大概觉得产生这件事情的原因。这是假设,有了这个假设,我们拿到的这批数据便是可能会支持自己假设的数据,如何证明我们的想法呢。那么从这些客观的数据中抽取可能影响这个结论的变量吧。比如我觉得是因为高低影响了我在这次选美大赛中的成绩,那么看看个子高的人呢,她们的成绩和身高的两个变量呈现怎么样的关系。身高越高,成绩越高,那么我的猜想是对的。当然某个问题可能会牵扯到不止一个的混杂因素影响,一个个抽取控制变量相互比较吧。更快更好的数据分析,需要思想和工具,不同的变量影响一个问题,那么这些变量直接存在的相互制约的关系是找到目标函数最优解的关键,像是寻找最大值一样,橡胶数量一定的情况下,生产多少只鸭子多少只鱼能让我们拿到最多的利润呢,似乎想到了高中数学里面的可行区域和渐近线。当然在考虑一个实际问题的时候还有人们不同时间的需求量也是其中的一个约束条件。 在工作中,往往最后呈现给别人看的是你的分析结论以及支持这些结论的一些图形变化,直观有效的可以展示出问题的变化和分布,书中提到了一个r软件,摆弄了一下,发现需要一些特定的指令和编程语言,遂还不是会用的。 在对于一个实际问题中,数据分析的精髓大体是这样的,数据描述信息然后抽取变量明确目标函数,提出假设,然后假设验证,尤其是对于一个没有123实际数据的抽象概念或者事件,只有描述,如何拿到可靠地结论,最近对于搜索引擎索引量的问题组长想要阻止讨论,只有描述,我们想知道对于自己来书索引多少数据最合适,按照数据分析师的思路,在自己没有想法和方向的时候不要召集讨论,我们各自说各自的开多长时间会也拿不出结论,不是徒劳吗,想想在这个问题中,影响索引量的变量都有哪些,机器资源?搜索量?需求范围等等,这些约束条件有什么关系,提出个假设说是60亿呢,开始假设验证,证明不对那么剩下的那个就是对的了。用已经掌握的要素和关系使用逻辑推理,这其中貌似缺乏了些数据的东西,但是也是一种思维。在不要求一些精确数值的时候,可以这样子去检验。 书中提到了贝叶斯统计,这是一种更贴近于实际的概率模型,事实上,任何实际问题多数都已在某个条件下成立的,这也使得贝叶斯非常的实用,想到当初的概率论亦或是高中的线性规划,只见其标,不见其本,更谈不上联系实际,多少有些感慨,背公式也可以背到90多分,可是我们学习不是为考试的啊。刚实习的时候,导师跟我说任何的一个结论都要量化,只是后来见他总是可能也许大概的说,有些迷糊。优秀的数据分析师告诉我们,人的主观概念也是可以量化的,比如我认为这件事情成功的概率是80%,其他人认为90%,或者我的80%的概率是哪些因素引起的,他们的概率又都是多少,把这些主观的概率都拿出来记录一下,我们是可以分析出结论的。
最后联系一个实际的例子吧,大一的时候我们想要分析大学生的职业规划,明确的描述问题,归纳影响职业规划的因素和变量,最终为搞笑职业规划的教育提出一些可行的方向,由变量设计问卷,由问卷拿到数据,有数据统计得到分布,回归一个关系,提出不合理的数据,最终拿出结论。不管是excel还是r软件,还是数据量大的售后要用到的关系数据库。工具都是帮助我们更好的分析问题的,是手段不是目的。这本书让我讲数据分析系统的完整的认知,讲以往所学的所遇到的知识和问题建立了联系,如前面所说,建立了遇到问题的一种数据思想和意识,这是最重要的,可能现在去建模只是皮毛,那么加油吧,下次再重读这本书的时候会有更深入的收获。
任何的实际问题都可以抽象成一个数学模型,有利于自己和他人更好的理解和看清问题。
2013年5月11日星期六于北京
爱华网本文地址 » http://www.aihuau.com/a/25101010/39979.html
更多阅读
原文地址:《甘地自传》读书笔记 莫作者:hui_ting1979一个人如果想要改造别人,就不应该同时和被改造者保持过于亲密的关系。朋友是相互影响的,在友谊中是不会有轻易改造任何一方的机会的。我以为一切排他性的亲密友情都应当避免,因为人容
原来孩子真的可以帮助我们成长——《让孩子心悦诚服》读书笔记真的感谢一位朋友推荐这本书给我。这本书带给我的收获甚至超过当初《好妈妈胜过好老师》带给我的体验,因为它恰好命中了我最近一直在困惑的两个问题:个人的焦虑和育儿过
《女生贾梅》读书笔记摘抄(1):两个女孩走出老远老远,才发觉,永远不会有顾客会为那个护创膏找上门去,因为他正好好的粘在简亚平的鞋底下,难怪刚才遍寻不着它呢!简叶平耿耿于怀,非要让她姑妈装成受害顾客上门取讨回那八元钱。贾梅阻止了他,说这
《汉书刑法志》读书笔记一作者:班固(汉)阅读时间:2012年10月最近阅读了《汉书刑法志》的前半部分,本文针对已阅读部分谈谈自己的想法。《汉书刑法志》是中国封建社会第一部叙述刑法制度发展史的专著。作者班固以“德主刑辅”的观点,评
充满理想激情的军旅华章——《历史的天空》读书笔记文/徐义平 - 生命如歌的日志 - 网易博客军旅作品,严格意义上说应该叫军事文学作品,必须与战斗密切相关,具体说来,应以战争过程为载体,反映战争中的人物命运、道德、行为、意志等。传统