没有合适的资源?快使用搜索试试~ 我知道了~
R语言学习笔记(小白入门级,看视频学习的时候随手记的).docx
需积分: 9 1 下载量 130 浏览量
2021-03-30
15:21:57
上传
评论
收藏 209KB DOCX 举报
温馨提示
试读
20页
R语言学习笔记(小白入门级,看视频学习的时候随手记的).docx
资源详情
资源评论
资源推荐
R 语言 大小写严格区分
R 中每个函数必须加括号,输入有括号之前回车换行 Getwd()
工作目录改成 D 盘的
List.les 或者 dir 可以查看目录里面的文件
赋值是 x<-
alt 加连字符是赋值快捷键
x<<-是强制赋值变量
ls 是查看当前空间被定义的变量 加上.str 是看其赋值
str()括号里面有变量才可以看其赋值
rm()是移除变量 删除后无法恢复
rm(list=ls())删除定义的全部数据
history 查看运行过的程序
save.image 定期保存空间
程序结束以后 q()退出
Install.packages() 下载 R 包 下载多个使用 install.packages(c(“ ”))
Libpaths 看安装路径
Library 查看 R 包
如何使用 R 包
R 包移植
R 语言内置数据集,可以直接敲名字调用 data()查看所有数据集
State<-data.frame(,,)用长度相同的向量建立数据框 State 引出
Data(package=“”)可以调出扩展包的数据集
数据结构
数值型,直接结算
字符串型
逻辑型,真或假;
日期型
Excel Ctrl+1 可以看出单元格格式
R 语言中,object 是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图
形。每个对象都拥有某种格式。
向量
R 数据中的向量,是构成其他数据结构的基础,是用于储存数值型、字符型或者逻辑型数
据的一维数组,就像数学里面的集合。用 C 来创建向量,语句是 x<-c(1,2,3,4,5) 后直接
输入 x 来调用,R 中字符串一定要加引号,不然分不清,逻辑性数据用大写的,或者首字
母代替,不可以首字母大写那样找不到。C(几比几)输出等差数列
Seq 函数是 seq(from=1,to=100,by=2) 可以用 length.out 定义输出几个数,输出等
差数列
输出重复的数列 rep(要重复的数,重复次数)
Rep(要重复的数,each=是要重复的次数)出现 times 就是两个相乘的重复次数。第二个
数还可以用 c( )来定义每一个数的重复次数,一个向量内之能是一个数据类型,如果只有
一个的话就可以不用 c 赋值。
向量化编程,避免使用循环
向量索引
访问向量中的数用 x[ ],是从第一个开始的,不是 0 开始,负整数是除了这个数其他的都
要访问。第几个数直接用数字,要是想表示大于几的数必须要写 x>
X[c()] 输出不同位置对应的元素,一个数的时候可以省略 c,多个数的时候不可以,索引
的[]中 c 意思是第几个数,其他的是数字。
不可以有正数也有负数
访问的时候 c()里面的是 T 或者 F 就是只把逻辑值为真的输出,如果 T 和 F 数量不相对应会
产生循环使用语句。如果逻辑值超过了数值数会出现 NA 缺失值。
%in%判断左边的值是否在右边。
字符串的向量用“one” %in% z 来看字符是否在向量内
引用时 z[z %in% c(“one”,”two”)] ,不加[ ]显示的是 z 中是否有 one two
在已经插好的数字中间插入数字用 append 函数,append(x 新定义的=原来的变量
v,values= ,after=要插入的那个数字在哪个之后)
Names(变量)给其命名,就会出现两行上面是名字下面是数值
删除整个向量是 rm 函数
删除就是用负数之后在赋值给新的变量。(字符串不可用)
向量运算
单个元素直接写就行 加减乘除
两个变量也可以直接写,两个乘号是乘幂运算,两个百分号是求余运算。 %/%为整除运算。
若两个向量数量不相等的话,数量少的向量会被循环使用。但是长向量个数必须是短向量
个数的整数倍。
还可进行逻辑运算,用大于等于或者小于来判断输出的是 T 或 F,判断两个是否相等两个
等号,不是一个等号,一个等号是赋值。
向量运算函数 abs 函数返回正值,sqrt 计算平方根,log(要计算的,底数)
Exp 计算以 e 为底的,ceiling 向上取整,Floor 向下取整,trunc 取整数部分
Round 四舍五入保留几位小数 round(c(-2.3,3.1415),digits=2)
Signif 保留有效数字
Sin cos tan 等
统计函数,sum max min mean(平均值) range(返回最大值和最小值)var(方
差)sd(标准差)prod(计算连乘的积)
Median 计算中位数
Quantile 计算分位数,命令为 quantile(要操作的向量,要计算的位置 0.5 为中位)
索引向量位置
Which.(是函数的时候加点不是的时候是没有点比如 t==7)max(定义的变量)
矩阵
长方形排列的复数或者实数结合,矩阵元素可以是数值型,字符型或者逻辑型,但是每个
元素要拥有相同的模式,这个与向量一致。
Heatmap 来创建热图
矩阵命令 matrix,先定义一个向量,再用 matrix 定义(x,行数,列数)要符合数学要求,
竖着进行分配,row 是行,col 是列,可以选择按照行排列还是列排列,用 byrow=T 默
认按照列来分布。
给矩阵的行和列命名,定义两个字符串向量后,dimnames(矩阵变量)<-list(两个定
义的字符串变量用逗号隔开第一个是列名字,第二个是行名字) dim 是维数的简称 ,
dim(x)可以看向量的维度,dim(x)<-可定义 x 维度。
数组
也可用 dim 函数来搞,dim(2,2,5)三维的想象成长宽高为 2,2,5 的长方体,命令为
array(多少个数,维度 c(2,3,3),dimnames=list(之前定义好的字符串))
矩阵索引
使用 i,j 访问,m[2,3],若省略行数则是默认全部行,加逗号很重要,带负号同样表示去
除 m[-1,2]去除第一行,再取第二列。
矩阵运算
矩阵四则运算需要行列一致,可以把一列单提取出来计算
colSums 计算每一列的和,rowSums 计算每一行的和。(s 要大写)
内积与外积,用*就是每个元素对应相乘,%*%
Diag(n)仿真对角线的值
T(n)将行和列进行互换。
列表
列表是最大的容器,列表可以存取任何数据结构甚至是列表本身。
列表启动是 list(里面是不加引号的变量)
可以利用想要命名的变量名称=变量来命名每个元素如 list(rst=a,)
访问的话就可以用索引[ ],多个元素用 c 可以在后面加$用每一个元素的名字访问。用一
个中括号输出的是子集结果还是一个列表,两个中括号输出的就是元素本身的类型
定义好列表重新再想要赋值的时候要加上两个中括号
删除采用负索引的方式,再赋值给新的列表。
数据框
是一种表格式的数据结构,实际上是一个列表,列表中元素是向量,这些向量构成数据框
的列,每一列必须有相同的长度,所以数据框是矩形结构,而且数据框的列必须命名。
形状上像矩阵,是比较规则的列表,矩阵必须为同一类型的数据,列表每一列必须是同一
类型,每一行可以不同
利用 data.frame 创建,先存储成向量再创建数据集,数据框访问,还是用中括号,负索
引直接去掉 state[-c(1,2)],按名字取行或者列的时候要加逗号和引号,记住$是索引
Plot 是绘制散点图,索引的时候用$
Lm 是线性回归。
一次要使用数据框的多列数据,使用名称加$访问比较麻烦,Attach 函数是加载数据框到
R 搜 索 目 录 中 , 加 载 完 成 后就 可 以 直 接 写 列 的 名 称 不 需 要 $ 来 索 引 。 使 用 完 成后
detach(mtcars)取消加载。
With 语句是 with(mtcars,大括号列名)
数据框可以采用双中括号访问是原格式
因子
变量分为名义型变量、有序型变量、连续型变量
连续型变量是某个范围中的任意值,年龄身高等,名义型变量没有顺序分别,相互之间独
立的,有序型变量介于上述二者之间,有顺序关系,但不是连续的数量变化, good
better best。
总结:穷举不完全的是名义型,可以穷举出来但是无法用数量描述的只能定性描述的是有
序型,可以定量描述的是连续型。数值的更愿意是连续型变量,字符串更愿意是名义型变
量。
名义型变量和有序型变量被称为因子(factor)。这些变量的可能值被称为一个水平
level,如 good better best。水平值构成的向量是因子。就是分类的类别。
最大的作用是分类。需要分类的,我做的就是流域分析,想要统计就要把流域那一列创建
为因子,用 factor。
比如选择汽车的气缸数,那一列是因子类型,每一个统计出来的 4、6、8 个是因子里面的
level。
要用什么分类就是选什么当因子,table 函数可以进行频数统计
定义因子用的是 factor
用 factor 定义的时候要比如定义了一周就是可以人为的给他一个时间, ordered=T,
后面 levels=按顺序写下来。
将数据中的一个向量转化为因子,直接输入到 factor 函数中即可,对向量绘图出现的是
散点图,对因子绘图出现的是条形统计图。
Cut 将变量分割并转化为因子,函数全部统一为区间的画出来,并列出因子的水平。
Class 查看数据类型
缺失数据
出现原因:机器断电,设备故障导致某个测定值发生了丢失。测量根本就没有发生,在做
调查问卷时,有些问题没有回答,或者有些问题是无效的回答。
处理这部分缺失值,R 中用 NA 代表缺失值,是 not available 的简称,表示没有并不一
定是 0,NA 是不知道是多少,可能是 0 也可能是另一个值,缺失值与值为 0 完全不同。
na.rm=true 为跳过这个缺失值,用于计算平均值时,就是去除了这一个向量,没有计
数,与我们的目的不谋而合。
Is.na( )可以测试这个向量里面有没有缺失值
na.omit 函数就是删除缺失值,处理向量可以直接删除,但是到了数据框中就是包含缺失
值的每一行都删除掉。
NaN 代表不可能的数,lnf 表示无穷分为正无穷和负无穷,代表无穷大或者无穷小
字符串处理
字符串出现的地方加引号
nchar(“hello world”) 统计字符串长 度,其 返回的 是向量中每个元素字符 串的个数
剩余19页未读,继续阅读
Floria815
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人工智能实验四 感知器算法的设计实现
- java小项目多线程多线程 复制文件 冒泡排序 群聊
- 四数之和(java代码).docx
- 701837906919458TapScanner v3.0.10 (Pro).apk
- 青岛大学人工智能实验二 利用α-β搜索的博弈树算法编写一字棋游戏
- ### 1、项目介绍 本项目Scrapy进行数据爬取,并使用Django框架+PyEcharts实现可视化大屏 效果如下:
- # 微信小程序-健康菜谱 基于微信小程序的一个查找检索菜谱的应用 ### 效果 !动态图(./res/gif/demo
- zabbix-get命令包资源
- 289ssm-mysql-jsp 计算机课程实验管理系统.zip(可运行源码+数据库文件+文档)
- 毕业设计,基于PyQt5实现的可视化界面的Python车牌自动识别系统源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0