博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
优达学城数据分析师纳米学位——P4项目知识点整理及代码分析
阅读量:7259 次
发布时间:2019-06-29

本文共 1784 字,大约阅读时间需要 5 分钟。

#P4项目知识点整理

##P4项目概述

##R语言知识点汇总

##数据分析实例解析

#P4项目概述

使用R+EDA(exploratory data analysis探索性数据分析)(探索式数据分析是在应用正式的、严格的统计分析之前,对数据的特征和关系进行数字和图表的测试) 来探索一个变量或多个变量之间的关系,以及在一个选定的数据集中探索分布,异常值和反常现象。

#R语言知识点汇总 

1.R语言概述

R语言是一款强大,免费,扩展性高的开源编程语言,用于统计计算,同时运用了command-line scripting, you can store a series of complex data-analysis steps in R.

Re-use your data analysis work

make it easier for others to validate research results and check your work for errors 

The language is actually fairly simple, but it is unconventional

2.数据处理:

###ggplot2 - Multiple Plots in One graph using gridExtra

区分 facet_wrap facet_grid 命令将数据分面在不同的数据表中显示,gridExtra可以在同一张表格中显示不同的数据

 

 

 ###生成有序变量 factor variables

3.数据转换 (data transformation)

log transformation

1.用于Monetary amounts--incomes, customer value, account, purchase sizes

basic data work

2.用于多个数量级的数据

3.用于倍增特征的数据 例如涨价 2% 需要根据原价调整,范围可能是2,可能是200,可能是20000

signedlog 10 = function(x) {ifelse(abs(x)<=1, 0, sign(x)*log10(abs(x))) }

 

extracting key statistics out of a data set

explore a data set with basic graphics

reshape data to make it easier to analyze

4400+的数据包,18000+的领英小组 

 

R的语言 is different from that of many other languages

##数据分析实例解析

Netflix Prize

The Netflix Prize was an open competition for the best collaborative filtering algorithm to predict user ratings for films, based on previous ratings without any other information about the users or films.

训练数据集 <user, movie, data of grade, grade>  

RMSE(root mean squared error) measure of the differences between values (sample and population values) predicted by a model or an estimator and the values actually observed

qualifying set表示包含了 user, movie, date of grade 三个变量的数据集, 其中quiz set用来做预测算法的检验工作

提高推荐算法准确率

 

Foodborne Chicago finds dodgy restaurants with tweets, and R

 

转载于:https://www.cnblogs.com/kong-xy/p/6366647.html

你可能感兴趣的文章
MVVM架构~knockoutjs实现简单的购物车
查看>>
asp.net生成静态页
查看>>
分享一下cookies操作(增、删、改、查)小经验
查看>>
默认初始化&拷贝初始化&直接初始化&值初始化&列表初始化
查看>>
gulp使用方法总结
查看>>
1119 Pre- and Post-order Traversals
查看>>
OpenGL——gl10方法解析
查看>>
JAVA利用第三方平台发送短信验证码。
查看>>
每日踩坑 2019-04-08 VS2015未能找到路径“…\bin\roslyn\csc.exe”的解决方案
查看>>
如何编写 Nagios 插件 (http://zener.blog.51cto.com/937811/727685)
查看>>
C++扬帆远航——11(斐波那契数列)
查看>>
第二章
查看>>
CSS3 pointer-events介绍 | CSS | 前端观察
查看>>
图论 List
查看>>
图的邻接表、拓扑排序、无权最短路径和加权最短路径
查看>>
C_数据结构_递归实现求阶乘
查看>>
(补充)9.Struts2中的OGNL表达式
查看>>
1572: [Usaco2009 Open]工作安排Job
查看>>
Django Rest Framework之版本控制
查看>>
网关协议学习:CGI、FastCGI、WSGI
查看>>