正大杯随笔
这几天正好在学习正大杯的一些知识,正好就来做一些笔记。
数据清洗
数据去重:去除数据集中的重复记录。这可以通过比较记录中的唯一标识符或关键字段来实现。
缺失值处理:填补数据集中的缺失值。这可以使用插值、平均值、中位数、众数等方法进行处理。
异常值处理:检测和处理数据集中的异常值。异常值可以被删除或替换为可接受的值。
数据标准化:将数据格式标准化为一致的格式,以便于处理和分析。例如,可以将日期格式标准化为ISO格式。
数据转换:数据转换实质上是将数据的格式进行转换,其目的主要是为了便于处理和分析数据。例如,将文本格式的日期转换为日期格式。
数据验证:确保数据集中的数据准确性和完整性。
信度分析
信度,又叫可靠性,可检验同一事物重复测量结果的一致性程度,其与测量结果的正确与否无关,而是反映测量工具(如调查问卷)的稳定性或可靠性,一般用信度系数表示。
一般而言,如果信度系数达到 0.9 以上,表示该测验或量表的信度很好;信度系数在 0.8 以上,表示可以接受;如果在 0.7 以上,则应该对该测量工具进行修订,但仍不失其价值;如果低于 0.7,则此量表的调查结果很不可信,需要重新设计量表。
科隆巴赫系数(Cronbach’s alpha)
科隆巴赫系数也叫 $\alpha$ 信度系数:
式中 $k$ 为题目个数,$S^2_i$ 第 $i$ 题得分的方差,$S^2_x$ 为测验总得分的总方差。
$\alpha$ 信度系数与量表的题目数量关系密切。如果一个含有约 10 个题目的量表,$\alpha$ 系数应能达到 0.8 以上;如果量表的题目增加,$\alpha$ 系数会随之升高,当题目多于 20 个时,$\alpha$ 系数会很容易地升至 0.9 以上;如果量表的题目减少,$\alpha$ 系数会随之降低。
效度分析
效度是指测量的有效性程度,是测量工具能测出所要测量特质的程度,即准确性、有用性。
在测量理论中,效度被定义为在一系列测量中,与测量目的有关的真实方差与实得分数方差的比率:
其中 $r_{xv}$ 为测量的效度系数,$\sigma_v^2$ 表示真实方差,$\sigma_x^2$ 表示实得分数方差。一般使用因子分析模型,采用 KMO 和 Bartlett 球形度检验。
质量控制
- 需要对于所有问卷进行筛选,对于前后答案明显不一致,逻辑矛盾的
问卷,我们会将问卷作为无效问卷处理。 - 当发现无效问卷较多时,需要发放更多的问卷保证样本量,并及时对于所
收集的数据进行整理和汇总,直至满足所需要的样本量。
对于收集的问卷信息的分析(因子分析法)
合适度和效果检验
使用 KMO 统计量来调查是否能存在相关关系。变量共同度分析是为查看原始变量能被提取的因子所表示的程度。在这之前我们得让变量标准化,以消除量纲的影响。
KMO
KMO 是 Kaiser-Meyer-Olkin 的取样适当性量数,当 KMO 值愈大时,表示变量间的共同因素愈多,愈适合进行因素分析,根据专家 Kaiser(1974)观点,如果 KMO 的值小于 0.5 时,较不宜进行因素分析,
标准化变量
对于样本序列$ x_1,x_2,\dots, x_n$进行标准化,有
产生的$y_1,y_2,\dots,y_n$ 是均值为 0,方差为 1,无量纲的数据。
累计方差贡献率分析
如果变量的累计方差贡献率较大,说明因子对于变量的解释能力非常好。
成分矩阵
成分矩阵显示的是旋转之前的因子载荷矩阵,其中有些变量在各因子上的载荷比较接近,难以对因子进行明确定义,因此,对于因子解释和命名更有指导意义的是旋转后的成分矩阵。
聚类分析
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
对个案进行分类:Q型聚类(平方欧式距离)
对变量进行分类:R型聚类(皮尔逊相关性)
聚类的好不好?
- 能不能给每一类起一个名字?(显著的特征)
- ANOVA显示两个或多个类别的群体,在各个变量上是否有差异,有差异说明聚类相对成功。
- 每个类别各有多少被试,最好比较均匀
杂项
SWOT分析法
所谓SWOT分析,即基于内外部竞争环境和竞争条件下的态势分析,就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等,通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,从中得出一系列相应的结论,而结论通常带有一定的决策性。
S (Strengths)是优势、W (Weaknesses)是劣势、O (Opportunities)是机会、T (Threats)是威胁。按照企业竞争战略的完整概念,战略应是一个企业“能够做的”(即组织的强项和弱项)和“可能做的”(即环境的机会和威胁)之间的有机组合。
多重响应分析
多重相应分析一般用于多选题的分析,一般有三种:
- 一道多选题,每个选项用一列表示,0表示未选,1表示已选;
- 一道排序题,存在选项先后次序,每个选项用一列表示,列值对应选项的次序;
- 一道多选题,存在选项先后次序,每个次序用一列表示,列值对应选择的选项。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!