01 前言 “一切都被记录,一切都被分析”就了一个信息爆炸的时代,人类过去两年产生的数据占据了整个人类文明中所产生的数据的90%。而在这些无限丰富的数据中,蕴藏着巨大的价值,数据分析在数据爆炸式增长的前提下变得炙手可热,数据分析师甚至被称为“性感的职业”。由于需求的迫切增加和人才的短缺,数据人才显得弥足珍贵,数据分析师由此披上了华丽的光环。那么对于并非科班出身的人来说,如何通过自己的学习入门并成为厉害的数据分析师呢?下面是一份比较基础的书单,但也可以说是一个相对完整的入门学习体系。 02 基础—统计学 统计学是数据分析方法论中的核心基础,在数据分析的方法模型中,很大程度上都来源于统计学的方法,所以掌握统计原理是必须的。 《深入浅出统计学》 Dawn Griffiths 著 李芳 译 目前市面上最具娱乐性、最能够抓住读者注意力的统计学研读指南。透过生动活泼的手法与素材,为这个困难的主题提供最容易被接受的学习方式,贯穿全书的精辟解说让各种程度的学生都能够充分地理解统计学。涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。 《数学之美》 吴军 著 此书名为数学之美,实为信息技术(自然语言处理)中的数学原理(统计语言模型)之美。更深刻地理解了大学所学的线性代数、概率论与数理统计和应该学而没学的随机过程、图论、机器学习的应用意义。作者深入浅出的宏观讲解,和恰到好处的细节展现,让读者很容易能感受到数学纵使在计算和证明上有许多繁琐巧妙的细节,但数学模型本身却是高度简洁高度具有概括力的,一些看似毫不相关的领域居然可以用同一个简单的数学模型来构建,这大概就是数学之"美”了吧。 《统计学》 贾俊平 等 著 这本书应该算是很多统计学科班人士的入门书籍了,同时也是很多高校的统计专业的教材。这本书可能是你从专业系统性地了解统计知识的书目了,内容涵盖了描述统计方法,推断统计方法以及工商管理中常用的一些统计方法。作者将计算机紧密结合,大部分统计方法都给出了Excel的计算过程和结果。 《统计学习方法》 李航 著 系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。你要知道,这些是之后可以直接应用到你的数据分析项目中去的一些方法。从统计向机器学习深入和过渡,对目前目前的统计学习方法有全面的介绍。 03 入门—数据分析 当了解了统计学的一些基础知识之后,你就可以正式上手学习较为基础的数据分析知识了,这一部分主要是了解数据分析和数据挖掘的方法、工具等理论上的东西,是为后续的数据分析实战打好基础。 《深入浅出数据分析》 Michael Milton 著 李芳 译 数据分析入门的经典书籍了,你会发现几乎每个给你推荐数据分析、数据挖掘书单的人都会推荐此书。此书最大的优点就是非常的简明易懂,还给你填了很多统计方面的坑,让没有统计知识的你不至于一脸懵逼。数据分析基本步骤、实验方法、最优化方法、假设检验方法、误差处理、相关数据库、数据整理技巧等相关知识都有介绍。 《数据挖掘导论》 Pang-Ning Tan,Michael Steinbach 著 范明 范宏建 译 这绝对是你进入数据分析和数据挖掘领域的核心书籍,也是数据挖掘的入门经典。书中对数据、分类、关联分析、聚类和异常检测作出了细致入微的阐述。书中还有一些常用的数据挖掘算法和伪代码,可以作为延伸学习的。当然数据挖掘的东西更多的是要去理解,而不是记忆,理解理论背后的原理会让你在后续的实战中能够更加得心应手。 《数据挖掘概念与技术》 Jiawei Han,Micheline Kamber 著 范明 孟小峰 译 这本书的定位和《数据挖掘导论》的定位比较相似,都是在数据挖掘、分析技术的问题上的探讨。关于聚类、关联、分类的讲解都很到位。这本书虽然名为data mining,但其实思想都是machine learning的东西,这也可以是一个了解机器学习的不错的切入点。 04 实战—数据技术 经过前面对于数据分析和数据挖掘知识的积累,相信你已经形成了最基本的数据分析知识体系,也对数据分析的方法和流程有了较为全面的了解。那么接下来就是应用这些东西来进行数据分析实战了。当然这个部分,你还需要学习一门编程语言,这里推荐Python。 《利用Python进行数据分析》 Wes McKinney 著 唐学韬 译 此书绝对是计算科学和数据分析经典中的经典,强大的地方在于,书中不仅建立了一个完善的python分析方法论体系,还有大量具体的实践建议,以及大量综合应用方法。将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题,所以这将是你真正意义上数据分析实战的开始。 《Python数据分析与挖掘实战》 张良均 王路 等 著 从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。通过这本书,你完全可以阅读过程中,充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过自己进行上机实战掌握Python的数据分析。 《Python核心编程(第二版)》 Wesley J. Chun 著 CPUG 译 要用python进行数据分析,学习python这门语言是必须的了,这本书就是python编程的经典。尤其是每一小节后面的核心笔记,讲解了一些有用的编程技巧和知识,知识点非常细致,你可以学到很多以前不知道的编程知识。当然这本书用来扫盲可能有一定的难度,可能更适合进阶,让你打扎实python 的基础。 下一页更精彩:数据分析师书单:如何快速入门成为厉害的数据分析师?
|