一、描述统计分析
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
path='data.csv'
data=pd.read_csv(path,encoding='GBK')
data.head()

data.describe()

dataC=data['Congruent']
dataI=data['Incongruent']
#第一组数据:字体内容和颜色一致的情况下,实验者的反应时间
con1_mean=dataC.mean()
con1_std=dataC.std()
#第二组数据:字体内容和颜色不一致的情况下,实验者的反应时间
con2_mean=dataI.mean()
con2_std=dataI.std()
用柱状图比较两个样本数据
fg=plt.figure(figsize=(20,10))
ax=fg.add_subplot(1,1,1)
data.plot(kind='bar',ax=ax)
plt.show()

print('描述统计分析结果:')
print('第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是:',con1_mean,'秒,标准差是',con1_std,'秒')
print('第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是:',con2_mean,'秒,标准差是',con2_std,'秒')
print('“不一致”情况所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长')
描述统计分析结果:
第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是: 14.08716 秒,标准差是 3.557136613907315 秒
第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是: 22.90684 秒,标准差是 5.638018754255198 秒
“不一致”情况所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长
二、推论统计分析
1.问题是什么?
零假设和备选假设
假设第一组“一致”的均值为 u1 ,第二组“不一致”的均值为 u2
零假设H0:人们的反应时间不会因为字体内容和字体颜色是否相同(u1 = u2 ,或者 u1-u2=0 )
备选假设H1:斯特鲁普效应确实存在。根据斯特鲁普效应的定义,颜色和文字不同的情况下,人们的完场测试的时间会变长( u1 < u2 )
检验类型
#差值数据集
data['Difference']=dataC-dataI
data.head()

抽样分布类型
dataD=data['Difference']
import seaborn as sns
sns.distplot(dataD)
plt.show()

通过观察上面差值数据集分布图,数据集近似正态分布,所以满足t分布的使用条件,我们可以使用相关样本t检验。
检验方向
因为备选假设是:斯特鲁普效应确实存在,根据Stroop Effect的定义,颜色和文字不同的情况下,人们的完场测试的时间会变长( u1 < u2 )。
所以我们使用单尾检验中的左尾检验,显著水平为5%,t检验的自由度df=n-1=25-1=24
2.证据是什么?
from scipy import stats
t,p_twoTail=stats.ttest_rel(dataC,dataI)
print('t值=',t,'双尾检验p值=',p_twoTail)
t值= -8.20832083183437 双尾检验p值= 1.996274058712791e-08
#单尾检验的p值
p_oneTail=p_twoTail/2
print('单尾检验的p值=',p_oneTail)
单尾检验的p值= 9.981370293563955e-09
3. 判断标准是什么?
## 3.判断标准是什么
#显著水平=5%
alpha=0.05
4. 做出结论
#单尾检验的p值
p_oneTail=p_twoTail/2
#显著水平
a=0.05
#决策
if(t<0 and p_oneTail<a):
print('拒绝零假设,有统计显著,也就是接受备选假设:斯特鲁普效应存在')
else:
print('接受备选假设,没有统计显著,也就是斯特鲁普效应不存在')
拒绝零假设,有统计显著,也就是接受备选假设:斯特鲁普效应存在
假设检验报告:
相关配对检验t(24)=-8.35,p=7.32e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯斯特鲁普效应存在。
5.置信区间
#95%置信区间对应的t值是2.064
t_ci=2.064
sample_mean=dataD.mean()
se=stats.sem(dataD)
#置信区间上限
a=sample_mean-t_ci*se
#置信区间下限
b=sample_mean+t_ci*se
print('两个平均值差值的置信区间,95置信水平 CI=[%f,%f]' % (a,b))
两个平均值差值的置信区间,95置信水平 CI=[-11.037408,-6.601952]
6.效应量
# 差值数据集对应的总体平均值是0
pop_mean=0
#差值数据集的标准差
sample_std=dataD.std()
d=(sample_mean-pop_mean)/sample_std
print('d=',d)
d= -1.641664166366874
三、数据分析报告总结
1、描述统计分析
第一组数据:字体内容和字体颜色一致情况下,实验者的平均反应时间是: 14.09 秒,标准差是 3.56 秒
第二组数据:字体内容和字体颜色不一致情况下,实验者的平均反应时间是: 22.91 秒,标准差是 5.64 秒
“不一致”情况下所用时间均大于“一致”情况,也就是当字体内容和字体验证不一致时,实验者的平均反应时间变长
2、推论统计分析
1)假设检验
相关配对检验t(24)= -8.21,p= 9.98e-09 (α=5%),左尾检验
统计上存在显著差异,拒绝零假设,从而验证斯特鲁普效应存在。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI=[-11.04,-6.60]
3)效应量
d= – 1.67
相关文章: