Author Archive: nex3z

R Cheat Sheet (11): vapply and tapply

本文通过实例说明R语言*apply()系列中vapply()和tapply()的用法,所用到的数据同R语言中lapply()和sapply()的用法。在http://archive.ics.uci.edu/ml/machine-learning-databases/flags/flag.data下载到flag.data文件,将其导入R: [crayon-5cbc0e006bfe0093186685…
Read more

R Cheat Sheet (10): lapply and sapply

R语言中提供了一系列*apply()的函数,为数据分析中Split-Apply-Combine的策略提供了简洁方便的实现,这些函数的基本工作流程都是首先将数据按照某种规则划分(split)为较小的几部分,然后对各个部分应用(apply)某些操作,再将结果整合(combine)起来。关于Split-Apply-Combine策略的详细内容,可以参考Hadley Wickham的The Split-A…
Read more

R Cheat Sheet (9): Functions

本节主要关注R中的函数、函数的参数,以及自定义二元运算符。 1. R中的函数 R中函数的特征为函数名加上括号,如:

大多数R中的函数都有返回值,如上面 Sys.Date() 函数没有输入参数,它根据系统环境返回当前时间;另一些函数会对输入的数据进行处理并返回结果,如使用[crayon-5…
Read more

R Cheat Sheet (8): Logic

本节的主要内容是R中的逻辑运算。 1. 逻辑运算符 等号运算符 == 是一个逻辑运算符,用于比较两个元素是否相同。

和数学表达式一样, 逻辑表达式也可以使用括号 () : [crayon-5cbc0e006c8…
Read more

R Cheat Sheet (7): Matrices and Data Frames

本节内容涵盖矩阵(Matrix)和数据框(Data Frame),二者均为“正方形”的数据类型,用于存储行列形式的表格数据。二者的差别在于,matrix只能存储相同类型的数据,而data frame可以存储不同类别的数据。 1. Matrix 对于之前见过的vector,可以使用 length() 来查看其长度,而对vector使用[crayon-…
Read more

R Cheat Sheet (6): Subsetting Vectors

本节的主要内容是所指定的条件,从一个矢量中取出想要的元素。 1. 使用正整数矢量索引 对于如下的一个矢量:

可以使用索引矢量(index vectors)来取出制定的一段元素,如取出前10个元素:

 其中,[crayon-5cbc0e006ced7376170851-…
Read more

R Cheat Sheet (5): Missing Values

在统计和数据分析中,丢失的值也具有重要的作用。不能简单地忽视这些丢失的值,而是要仔细分析,查找这些值丢失的原因,以及之它们之间所隐含的模式。 1. NA 在R中,用 NA 来表示不可用(not available)或者丢失(missing)的值。任何涉及 NA 的运算,结果都…
Read more

R Cheat Sheet (4): Vector

  R中的矢量(vector)可以分为两类:原子矢量(atomic vector)和列表(list),前者只包含同一种数据类型,后者则包含多种数据类型。根据所包含的数据类型,atomic vector有数字(numeric)、逻辑(logical)、字符(character)、整数(integer)、和复数(complex)等几类。 1. Numeric vector   Numeric vect…
Read more

R Cheat Sheet (3): Sequences of Numbers

1. 使用“:”运算符生成数字序列   可以使用“:”操作符生成数字序列:

   查看运算符的帮助文档,需要使用单引号“‘”:

2. 使用seq()函数生成数字序列   使用 seq() 函数也可以生成数字序列,…
Read more