Tag Archive: swirl

R Cheat Sheet (15): Base Graphics

相比于其他编程语言,R语言的最大优势之一是它能够很容易地绘制出版物级别的图像。本节的主要内容是R中的基础绘图,不包含如lattice、ggplot2和ggvis等更高级的绘图包。 首先载入cars 数据框,并查看其文档: > data(cars) > ?cars cars 中只有两个变量,速度speed 和刹车距离dist ,这些数据是19世纪20年代记录的。 在开始绘图前,首先查看一…
Read more

R Cheat Sheet (14): Dates and Times

1. 日期和时间的表示 R使用Date 类表示日期,使用POSIXct 和POSIXlt 类表示时间。日期实际的存储方式为距离1970年1月1日的天数,POSIXct 中时间的存储方式为距离1970年1月1日的秒数,POSIXlt 中时间的存储方式为秒钟、分种、小时等元素的列表。 1.1. 日期的表示 可以使用Sys.Date() 获取当前日期,它返回的是一个Date 对象: > d1 &l…
Read more

R Cheat Sheet (13): Simulation

使用像R一样的统计编程语言的好处之一,是其具备大量生成随机数的工具。 1. 随机采样 使用sample() 函数可以生成随机数,下面的例子模拟了投掷一个六面骰子四次的结果,连续执行可以得到不同的结果: > sample(1:6, 4, replace = TRUE) [1] 3 6 3 1 > sample(1:6, 4, replace = TRUE) [1] 3 2 3 4 其中第…
Read more

R Cheat Sheet (12): Looking at Data

当拿到一个新的数据集时,首先要做的是检查一下数据,数据的格式是怎样的?有几个维度?有哪些变量?变量是如何存储的?有哪些丢失的数据?数据中是否有瑕疵?本节主要内容是使用R的内建函数解答以上问题。 本节中使用的数据集来自United States Department of Agriculture’s PLANTS Database (http://plants.usda.gov/adv_…
Read more

R Cheat Sheet (11): vapply and tapply

本文通过实例说明R语言*apply()系列中vapply()和tapply()的用法,所用到的数据同R语言中lapply()和sapply()的用法。在http://archive.ics.uci.edu/ml/machine-learning-databases/flags/flag.data下载到flag.data文件,将其导入R: names <- c("name"…
Read more

R Cheat Sheet (10): lapply and sapply

R语言中提供了一系列*apply()的函数,为数据分析中Split-Apply-Combine的策略提供了简洁方便的实现,这些函数的基本工作流程都是首先将数据按照某种规则划分(split)为较小的几部分,然后对各个部分应用(apply)某些操作,再将结果整合(combine)起来。关于Split-Apply-Combine策略的详细内容,可以参考Hadley Wickham的The Split-A…
Read more

R Cheat Sheet (9): Functions

本节主要关注R中的函数、函数的参数,以及自定义二元运算符。 1. R中的函数 R中函数的特征为函数名加上括号,如: > Sys.Date() [1] "2015-05-09" 大多数R中的函数都有返回值,如上面Sys.Date() 函数没有输入参数,它根据系统环境返回当前时间;另一些函数会对输入的数据进行处理并返回结果,如使用mean() 求均值: > mean(c…
Read more

R Cheat Sheet (8): Logic

本节的主要内容是R中的逻辑运算。 1. 逻辑运算符 等号运算符== 是一个逻辑运算符,用于比较两个元素是否相同。 > TRUE == TRUE [1] TRUE > 6 == 7 [1] FALSE 和数学表达式一样, 逻辑表达式也可以使用括号() : > (FALSE == TRUE) == FALSE [1] TRUE 和多数编程语言一样,< 、<= 、> …
Read more

R Cheat Sheet (7): Matrices and Data Frames

本节内容涵盖矩阵(Matrix)和数据框(Data Frame),二者均为“正方形”的数据类型,用于存储行列形式的表格数据。二者的差别在于,matrix只能存储相同类型的数据,而data frame可以存储不同类别的数据。 1. Matrix 对于之前见过的vector,可以使用length() 来查看其长度,而对vector使用dim() ,并不会得到有效结果: > my_vector &…
Read more

R Cheat Sheet (6): Subsetting Vectors

本节的主要内容是所指定的条件,从一个矢量中取出想要的元素。 1. 使用正整数矢量索引 对于如下的一个矢量: > x [1] 1.1734365 -0.6219365 NA NA -0.0639205 0.6324963 NA NA -0.3065296 [10] -0.5687445 -0.4932911 NA NA NA NA 0.4575920 NA 1.5744094 [19] NA …
Read more