R语言在统计中的应用有哪些?

2024-05-14

1. R语言在统计中的应用有哪些?

R语言是一个开源、跨平台的科学计算和统计分析软件包,具有丰富多样、强大的的统计功能和数据分析功能,R语言是主要用于统计分析、绘图的语言和操作环境。


R中的统计分析通过使用许多内置函数来执行。 这些函数大多数是R基础包的一部分。 这些函数将R向量作为输入和参数,并给出结果。


模式是一组数据中出现次数最多的值。 Unike平均值和中位数,模式可以同时包含数字和字符数据。


R语言没有标准的内置函数来计算模式。 因此,我们创建一个用户函数来计算R语言中的数据集的模式。该函数将向量作为输入,并将模式值作为输出。

R语言在统计中的应用有哪些?

2. R语言与统计分析的介绍

《R语言与统计分析》以数据的常用统计分析方法为基础,在简明扼要地阐述统计学基本概念、基本思想与基本方法的基础上,讲述与之相对应的R函数的实现,并通过具体的例子说明统计问题求解的过程。《R语言与统计分析》注重统计的思想性、方法的实用性和计算的可操作性。

3. R语言-统计学 描述性统计

R语言-统计学 描述性统计
描述定量数据的数值方法:中心趋势度量   变异的度量   相对位置的度量。
1.中心趋势度量 : 算数平均 中位数   众数
1.1  在R中计算平均数的函数  mean( )常规的mean() 函数用法                mean(x, trim = 0, na.rm = FALSE, ...) 参数说明: x 对象名称trim  过滤掉异常值 ,按照距离平均值的远近距离排除,如对象中含有10个数据,排除最高和最低值,trim=0.2na.rm  默认为F   表示是否计入空值实例1: 做一个稍微复杂点的操作,用r做数据透视表并把结果转换为matrix ,对行列求和。(仅娱乐,无实用价值)

        demo <- mtcars[1:6,] # 调用R自带函数集,并去前6行
         toushi <- aggregate(mtcars[,5:6] ,by = list(cyl = mtcars$cyl),sum) # 数据透视表求和
         toushi <- as.matrix(toushi)  # 将结果的数据框转化成矩阵
         #(toushi <- apply(toushi,c(1,2),sum))
         (rowSums(toushi))  # 行求和
         (colSums(toushi))  # 列求和
         toushi <- rbind(toushi,rowSums(toushi))  #将行求和结果并入最后一行
         toushi <- cbind(toushi,colSums(toushi))  #将列求和结果并入最后一列
  1.2 中位数和众数 
        对于偏度极大的数据集,中位数能更好的描述数据分布的中心。
       很少用众数作为数据数据趋势的度量,只有当对y出现的相对频率感兴趣时,才会考虑到众数。
       R实现中位数  : 
        median(x, na.rm = FALSE)
       R中没有直接插找众数的命令
       which.max(table(x))
2.变异的度量 : 极差  方差  标准差
    2.1 .极差 = max()- min()
    2.2  方差和标准差
       对一个有n个测量值的有限总体来说,方差计算公式的分母为n。关于样本方差和总体方差分母的差异原因,可自行百度搜索。
       R语言计算方差的函数: var(x,)
       w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63,5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)
       var(w)
       # 附加指数点:标准差的两个有用法则:经验法则 和 切比雪夫法则,共同说明一个问题,对于任意大于1的正数k,至少有(1-1/k^2)的测试值落在平均值的k个标准值范围内。
3.变异的度量 : 百分位数  Z得分
 3.1 .最常见的四分位数(一般从大到小)
      quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, ...)

R语言-统计学 描述性统计

4. R语言与统计分析的目录

第一章R介绍§1.1S语言与R§1.2R的特点§1.3R的资源§1.4R的安装与运行1.4.1R软件的安装、启动与关闭1.4.2R程序包的安装与使用第一章习题第二章R的基本原理与核心§2.1R的基本原理§2.2R的在线帮助§2.3一个简短的R会话§2.4R的数据结构2.4.1R的对象与属性2.4.2浏览对象的信息2.4.3向量的建立2.4.4数组与矩阵的建立2.4.5数据框(dataframe)的建立2.4.6列表(1ist)的建立2.4.7时间序列(ts)的建立§2.5数据的存储与读取2.5.1数据的存储2.5.2数据的读取§2.6R的图形功能2.6.1绘图函数2.6.2低级绘图命令2.6.3绘图参数2.6.4一个实例§2.7R.编程2.7.1循环和向量化2.7.2用R写程序2.7.3编写你自己的函数2.7.4养成良好的编程习惯第二章习题第三章概率与分布§3.1随机抽样§3.2排列组合与概率的计算§3.3概率分布3.3.1离散分布的分布律3.3.2连续分布的密度函数§3.4R中内嵌的分布§3.5应用:中心极限定理3.5.1中心极限定理3.5.2渐近正态性的图形检验3.5.3举例第三章习题第四章探索性数据分析§4.1常用分布的概率函数图§4.2直方图与密度函数的估计4.2.1直方图4.2.2核密度估计§4.3单组数据的描述性统计分析4.3.1单组数据的图形描述4.3.2单组数据的描述性统计§4.4多组数据的描述性统计分析4.4.1两组数据的图形概括4.4.2多组数据的图形描述4.4.3多组数据的描述性统计4.4.4分组数据的图形概括§4.5分类数据的描述性统计分析4.5.1列联表的制作4.5.2列联表的图形描述第四章习题第五章参数估计§5.1矩法估计和极大似然估计5.1.1矩法估计5.1.2极大似然估计§5.2单正态总体参数的区间估计5.2.1均值μ的区间估计5.2.2方差σ2的区间估计§5.3两正态总体参数的区间估计5.3.1均值差μ1-μ2的置信区间5.3.2两方差比σ12/22的置信区间§5.4单总体比率p的区间估计§5.5两总体比率差p1-p2的区间估计§5.6样本容量的确定5.6.1估计正态总体均值时样本容量的确定5.6.2估计比例p时样本容量的确定第五章习题第六章参数的假设检验§6.1假设检验与检验的p值6.1.1假设检验的概念与步骤6.1.2检验的p值§6.2单正态总体参数的检验6.2.1均值μ的假设检验6.2.2方差盯σ2的检验:x2检验§6.3两正态总体参数的检验6.3.1均值的比较:t检验6.3.2方差的比较:F检验§6.4成对数据的t检验§6.5单样本比率的检验6.5.1比率p的精确检验6.5.2比率p的近似检验§6.6两样本比率的检验第六章习题第七章非参数的假设检验§7.1单总体位置参数的检验7.1.1中位数的符号检验7.1.2Wilcoxon符号秩检验§7.2分布的一致性检验:x2检验§7.3两总体的比较与检验7.3.1X2独立性检验7.3.2Fisher精确检验7.3.3Wilcoxon秩和检验法和Mann-whitneyU检验7.3.4Mood检验§7.4多总体的比较与检验7.4.1位置参数的Kruskal-Wallis秩和检验7.4.2尺度参数的Ansari-Bradley检验7.4.3尺度参数的Fligner-Killeen检验第七章习题第八章方差分析§8.1单因子方差分析8.1.1数学模型8.1.2均值的多重比较8.1.3同时置信区间:Tukey法8.1.4方差齐性检验……第九章回归分析与相关分析第十章多元统计分析介绍第十一章贝叶斯统计分析……

5. R语言常用数学函数

R语言常用数学函数
sum()、max()、min()、mean()、median()
prod(x) 对x中的元素都连乘
which.max(x) 返回x中最大元素的下标
which.min(x) 返回x中最小元素的下标
range(x) 值域
rev(x) 对x中的元素取逆序
sort(x) 将x中的元素将升序排列
pmin(x,y)      返回一个向量,它的第i个元素是x[i],y[i] 中最小值
pmax(x,y)      返回一个向量,它的第i个元素是x[i],y[i] 中最大值
cumsum(x) 求累积和,返回一个向量,第i个元素等于x[1]到x[i]的和
cumprod(x) 求累积(从左到右)乘积
cummin(x)  求累积最小值(从左到右)
cummax(x)  求累积最大值(从左到右)
match(x,y)  返回一个和x的长度相同的向量,第i个元素表示y中与x[i]相同的元素的位置(没有则返回NA)
na.omit(x)  函数忽略有缺失值(NA)的观察数据(如果x是矩阵或数据框则忽略相应的行)
na.fail(x)  如果x包含至少一个NA则返回一个错误消息
which()  返回符合条件的元素的下标
choose 组合数,二项式,例choose(4,2) 返回6
rep(x,y) 将x重复y次
unique(x) 去掉重复的元素,只取一个
table(x)  返回一个列表,给出y中重复元素的个数列表
subset(x,条件) 返回x中满足特定条件的子集

R语言常用数学函数

6. 用R进行简单的数据统计

面对一堆数据,我们如何从中找出有用的线索,去做判断?
                                          
 用四个指标,可以勾勒出这些数据代表的平均水平、整体分布情况、数据波动性大小以及数据集间相对比较。那么这几个指标分别是平均值、四分位数、标准差和标准分。
  
 一、平均值。
  
 最常见的统计方法就是平均值。当不同的数据集间,次数、频数不同,用平均值就能够进行比较。比如客户满意度调查,每个客服的有效样本数是不同的,那么总分高低会相差很多,用平均值就能去除这个样本数的影响。举个调查结果的满意度指标A1和A2的例子。
  
 > A1<-c(5,7,7,6,5,5,3,7,7,6)
  
 > A2<-c(6,7,7,6,2,5,5,7,5,6)
  
 在R中,可以如下语句来统计两个指标的平均值:
  
 > avgA1<-mean(A1)
  
 > avgA2<-mean(A2)
  
 > avgA1
  
 [1] 5.8
  
 > avgA2
  
 [1] 5.6
  
 A1的平均值要高于A2。
  
 二、四分位数。
  
 平均值虽然是最常用的指标,但是实际中总有一些异常高或异常低的数值将平均值拉得“变形”。而我们真正要知道的,并非是个统计数字而已,我们要了解的,是数值背后的“真相”。因此,为防止异常数值使真相扭曲,我们需要更多的指标,那就是四分位数。
  
 四分位数其实有5个数值,从低到高分别是下界、下四分位数、中位数、上四分位数、上界。对于统计分析来说,我们要计算的是:全距、下四分位数、中位数、上四分位数、四分位距。这些四分位数值就像把整段数据切了三刀,按照数据大小排序后,把整段数据按位置分成了均等四份。这样特别少的但数值特别小或特别大的都被切到了头和尾,而中间的两段就能反映“最普遍”的情况。
  
 R里的语句:
  
 全距:
  
 > wdA1<-max(A1)-min(A1)
  
 > wdA2<-max(A2)-min(A2)
  
 > wdA1
  
 [1] 4
  
 > wdA2
  
 [1] 5
  
 下四分位数:
  
 > Q1A1<-quantile(A1,probs=0.25)
  
 > Q1A2<-quantile(A2,probs=0.25)
  
 > Q1A1
  
 25% 
  
   5 
  
 > Q1A2
  
 25% 
  
   5 
  
 中位数:
  
 > Q2A1<-median(A1)
  
 > Q2A2<-median(A2)
  
 > Q2A1
  
 [1] 6
  
 > Q2A2
  
 [1] 6
  
 上四分位数:
  
 > Q3A1<-quantile(A1,probs=0.75)
  
 > Q3A2<-quantile(A2,probs=0.75)
  
 > Q3A1
  
 75% 
  
   7 
  
 > Q3A2
  
  75% 
  
 6.75 
  
 四分位距:
  
 > QDA1<-Q3A1-Q1A1
  
 > QDA2<-Q3A2-Q1A2
  
 > QDA1
  
 75% 
  
   2 
  
 > QDA2
  
  75% 
  
 1.75
  
 从上述结果,可见,虽然A1平均值高于A2,但中位数是相等的。A1和A2的下四分位数是相等的,而A1的全距要小于A2,但四分距大于A2。也就是说,客户满意度中指标A1的数据较指标A2,整体变化幅度较小,而剔除异常值后,A1的数据变化幅度又略高于指标A2。
  
 > boxplot(A1,A2,main="Customer Satisfactor Index A1 vs A2")
  
 
  
                                          
 三、标准差。
  
 四分位数描述了数值的分散程度,我们还可以用另外一个指标--标准差直观地表示变异程度。
  
 > sd(A1)
  
 [1] 1.316561
  
 > sd(A2)
  
 [1] 1.505545
  
 A1的标准差低于A2,也就是说指标A1的分数更为集中。
  
 四、标准分。
  
 每个客户的打分可以用标准分z = (x-μ)/σ来衡量。标准分的含义是每个数值相对于平均值的距离,单位是标准差。
  
 > scale(A1)
  
             [,1]
  
  [1,] -0.6076436
  
  [2,]  0.9114654
  
  [3,]  0.9114654
  
  [4,]  0.1519109
  
  [5,] -0.6076436
  
  [6,] -0.6076436
  
  [7,] -2.1267527
  
  [8,]  0.9114654
  
  [9,]  0.9114654
  
 [10,]  0.1519109
  
 attr(,"scaled:center")
  
 [1] 5.8
  
 attr(,"scaled:scale")
  
 [1] 1.316561
  
 正的标准分代表打分高于平均值的情况,而负分为低于平均值的打分;除了第7个指标外,都是小于1倍的标准差,而第7个客户的打分显然对标准差的影响较大。

7. 《R语言实战》自学笔记25-统计函数

  数据准备 
   统计概念学习。
   (1)当观测值为奇数时,(n+1)/2位置的观测值即为中位数。     
   (2)当观测值个数为偶数时,n/2和n/2 + 1位置的两个观测值的平均数为中位数。     
                                            数据的标准化      数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。   数据的中心化:数据集中的各项数据减去数据集的均值。  中心化公式:        数据的标准化:中心化之后的数据再除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。经过该方法处理的数据的均值是0,标准差是1。  标准化公式:        其中,x为观测者,  为平均值,S为标准差。
   scale(x, center = TRUE, scale = TRUE)   x:用于标准化的数据,   center=T:表示数据中心化,   scale=T:表示数据标准化。   默认情况下,center=TRUE,scale=TRUE,scale()函数首先把一组数的每个数都减去这组数的平均值,然后除以这组数的均方根。   如果scale=TRUE,而center=FALSE,那么,scale()函数不会把一组数中的每个数减去平均值,而直接除以这组数据的均方根。
   参考资料:

《R语言实战》自学笔记25-统计函数

8. R语言与统计分析的内容简介

《R语言与统计分析》在内容的安排上不仅包含了基础统计分析中的探索性数据分析、参数估计与假设检验,还包括了非参数统计分析的常用方法、多元统计分析方法及贝叶斯统计分析方法。每一部分都通过具体例子重点讲述解决问题的思想、方法和在R中的实现过程。