统计学是一门推断事物本质,预测事物未来发展,是应用比较广泛的综合性科学!其中更是集合了的许多常用的数据分析方法。
很多入门级数据分析师,甚至一些“老油条”在日常工作中一直都在使用固定得机器学习框架来处理数据,并不会去了解其内在统计理论,但是为了知道如何使用或什么时候使用分析方法,去了解一下统计学和其统计分析方法是很有帮助的。
一、描述统计
描述统计是通过图表或者数学方法,将数据资料进行整理和分析,描述和概括数据的特征、状态以及随机变量之间的关系从而进行分析。
该方法主要分为相关分析、集中趋势和离散趋势三部分:
1、相关分析
简单的来说就是探讨数据间有没有统计学上的关联性,这种关联包括两个数据之间的单一相关关系,也包括多数据间的多重关系;也可以是既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度——即相关系数,再将相关系数进行变量之间的估算。
2、集中趋势
集中趋势就是凭借平均数、中数和众数等指标体系来描述一组数据的集中趋势。
3、离散趋势
离散趋势是依靠极差、方差、四分位数间距、标准差、变异系数CV等等统计指标来研究数据的离散趋势。
二、假设检验
假设检验就是进行逻辑推理,用数据做出决策的过程。使用假设检验分析方法不仅可以提高思维能力,还能分析出问题发生的原因。
假设检验分析方法步骤:
1、提出假设
需要客观提出假设,不能只依赖经验。比如拿到周数据之后,根据以往数据进行对比,找到其中的问题再提出假设。
2、收集证据
收集证据分析问题发生的原因,而且一个问题可能会由多个原因造成,需要多数据的对比分析。
3、得出结论
再根据自己找到的各种证据反复分析得出结论
三、信度分析
信度是用来测量工具可靠性的一个指标,它是指使用同样的方法对相同对象重复测量,得出其结果的一致性程度。如:一种测量工具是可靠的,那不管对其测量几次,结果都是一致而稳定的。信度的指标通常是通过稳定系数、等值系数、内在一致性系数三类表示。
信度主要分为内在信度和外在信度两种类型:内在信度和外在信度。内在信度简单说就是一组问题,的内在是否一致;外在信度就是指不同时间对同一对象测量的一致性程度。
信度分析方法主要有:重测信度法、折半信度法、复本信度法和α信度系数法。
四、回归分析
回归分析是一种预测性的建模技术,它研究的是因变量和自变量之间的关系,这个方法一般都是用于预测分析,对数据分析具有很大帮助。
回归分析具有很多种回归方法,最常用的有以下几类:
1、线性回归
线性回归指的是将两个事物取值定义为自变量和因变量,因变量随着自变量的变化而变化,其中因变量是连续的,自变量可以是连续也可以是离散的,回归线的性质是线性的。
线性回归又分为一元线性回归和多元线性回归,这两者的区别就是自变量数是一个还是多个。
2、逻辑回归
逻辑回归是一种概率分析,分析事件成功或失败的概率。该回归方法对因变量的分布没有要求。
3、其他回归方法
有序回归、加权回归等等。
统计学中数据分析方法还有很多,以上只是其中的几种而已。现如今越来越多岗位对数据分析有一定的需求,但很多人只是知道一些片面的东西,并不愿意深入了解其背后的理论知识。特别是现在越来越多人想要往数据分析师这一岗位转,大家一味的学习工具、框架,并不会主动去了解数据分析的方法,想要提升也是很难的~