作者: xiaoman
2023-07-02
This is the first post of my new Astro blog.
衡量数据中心位置,容易受异常值影响,因此求平均数之前需要先处理异常值
排序后处于正中间的数据就是中位数。不容易受极端值影响
一组数中出现最多的数,不容易受到极端值影响
定义为一组数据与其均值为代表的中心平均离散水平。受极端值影响,且必须服从正态分布,否则需要转换。
最大值与最小值的差值 ,不常用,易受极端值影响
z 分数用于衡量数据项在数据集中的 相对位置 ,用人类语言来说,它描述的是数据项距离均值有几个标准差。
数据的类型和度量
频数和概率和累计频数
概率的类型
理论概率 假设所有结果发生的可能性一致,用一种事件发生的次数除以所有可能结果的总数。如掷骰子
频率概率 依据观察数据或者实验数据,就是某一事件的相关频率。如试验频次统计或互联网用户行为统计【基于经验,使用最多】
主观概率 是依据经验或者主观估计的数值。如个人经验预估
常用的概率分布
相关性的类型
探索相关性:相关系数的计算
解释相关性