2014-2015学年第一学期《统计软件》期末试题
一、超级大乐透游戏开奖号码统计分析
1、开奖号码的均匀性检验
均匀性:均匀性是指对于物质的一种或多种指定特性具有相同特性量值或相同结构或相同组份的一种物质状态。如果总体子样的特性值与另一子样特性值之间的差异很小,甚至不能被实验检测所区分,则就总体的该特性而言,可以认定是均匀的。
本次分析的数据包括超级大乐透从第7001期(2007年5月30日,第一期开奖)至第15058期(2015年5月23日)每期的中奖号码,奖池奖金,一、二等奖中奖注数及每注奖金,以及总投注额等数据。
分别对历年超级大乐透数据集的前区号码和后区号码做柱状图,直观查看数据的分布情况,如下图:
如图所示,前区号码中21之后的偏大号码出现的频次在平均频次之上,而21之前的较小号码的出现频次则基本均处于平均频次之下;后区号码则在6之后出现的较大号码出现的频次在平均频次之上,而6之前的较小号码出现的频次则大都分布在平均频次之下;故,就总体的情况而言,号码的总体分布情况是不均匀的。
下面按每期开奖号码进行分析,运用方差分析探讨每期开奖号码的均匀性。周扬青家境
每期开奖前区号码方差分析结果:
由上表可知,P-值=0.994>>0.05的显著性水平,故每期开奖前区号码不存在显著性差异,则可以认为每期开奖前区号码的分布是均匀的。
每期开奖后区号码方差分析结果:
由上表可知,P-值=0.9999>>0.05的显著性水平,故每期开奖后区号码不存在显著性差异,则可以认为每期开奖后区号码的分布是均匀的。
2、开奖号码均匀性与返奖率的关系分析
首先,我们根据大乐透开奖信息一二等奖以及销售额计算返奖率,然后计算出前区开奖号码归整后平均数和后区号码平均数,做出开奖号码返奖率散点图:
如图一所示,用返奖率做散点颜层次,如图所示返奖率的颜分布比较均匀,没有出现集中性的颜集,所以返奖率与每期开奖号码的均匀性没有直接关系。
下面我们考虑返奖率与前区开奖号码和后区开奖号码的相关关系,这里采用简单线性模型分析,分析结果如图二所示,模型的线性关系是显著的,前区号码对返奖率的正相关线性关系是显著的,后区号码与返奖率的线性关系变现的并不明显。考察超级大乐透的设奖规则可知,七个号全部命中是一等奖,前区5个号码和后区一个号码全中是二等奖。所以,就本样本集而言,返奖率与前区号码的相关程度更高一些。
图一
一加7 pro图二
代码:
data<-data.frame(read.csv('大乐透部分数据.csv',header=F))
祝福父亲节的祝福语
data<-data[-c(1,2),-c(9:14)] #提取每期开奖信息萧亚轩华裔混血男友黄皓
colnames(data)<-c('期','f1','f2','f3','f4','f5','b1','b2')
fdata<-data[,2:6] #提取前区开奖号码
bdata<-data[,7:8] #提取后区开奖号码
fp<-table(sapply(list(fdata),unlist)) #统计前区数据频率
滨崎步结婚bp<-table(sapply(list(bdata),unlist)) #统计后区数据频率
#作开奖数据分布图
par(mfrow=c(2,1))
plot(fp,ylab='频率',xlab='号码',main='前区号码频率图')
abline(a=mean(fp),b=0,col='red')
text(4,210,'均值线')
plot(bp,ylab='频率',xlab='号码',main='后区号码频率图')
abline(a=mean(bp),b=0,col='blue')
text(4,200,'均值线')
#做单因子方差分析
fd<-as.numeric(unlist(list(apply(fdata,1,rbind)))) #将所有中奖号码转换为一组向量
有纯植物染发剂吗fnum=factor(sapply((lapply(1:1193,function(x) rep(x,5))),unlist)) #生成因子faov<-aov(fd~fnum) #前区号码方差分析
summary(faov)
bd<-as.numeric(unlist(list(apply(bdata,1,rbind)))) #将所有中奖号码转换为一组向量
bnum=factor(sapply((lapply(1:1193,function(x) rep(x,2))),unlist)) #生成因子baov<-aov(bd~bnum) #后区号码方差分析
summary(baov)
#开奖号码均匀性与返奖率的关系分析
data$return<-c()
for(i in 1:1193){
data$return[i]<-(data[i,10]*data[i,11]+data[i,12]*data[i,13])/data[i,14]
} #计算返奖率
data$fmean<-apply(data[,2:6],1,function(x) mean((x-min(x))/(max(x)-min(x)))) #计算前区开奖号码归整后均值
data$bmean<-apply(data[,7:8],1,mean) #计算后区开奖号码均值
plot(data$bmean,data$fmean,type='p',col=abs(log(data$return)), xlab='后区号码均值',ylab='前区号码归整均值',main='开奖号码返奖率散点图')
lm<-lm(return~fmean+bmean,data=data)
summary(lm)
二、复印纸亮度蒙特卡洛模拟
Devize模块提供了三个例子,来分别展示如何利用蒙特卡洛模拟来改善各类生产过程。这里选用复印纸亮度调整过程进行分析。某公司新的复印纸的亮度必须至少为84。重要过程变量是用于调节纸浆溶液的漂白浓度(Bleach)和处理温度(Temp)。函数关系式为:
Brightness=70.37+44.4 Bleach +0.04767Temp - 64.3Bleach* Bleach
通常情况下,漂白浓度遵循正态分布,其平均值为0.25和0.0095的标准偏差。温度也遵循正态分布,平均为145和15.3摄氏度的标准偏差。
接下来构造模型,如图:
计算所得过程能力指数(ppk):ppk=0.1572 << 1.33的最低标准
不合格品率oos = 32.44%
从图中也可以看出,相当一部分数据落在了最低标准的左侧,不合格品率也还可以继续改进。
为了改善生产过程,在不改变标准差的情况下,选取一系列温度与漂