R数据挖掘入门

2026-1-6 240 1/6

R数据挖掘入门

作者:山本义郎

页数:198

出版社:人民邮电出版社

出版日期:2018

ISBN:9787115478788

高清校对版pdf(带目录)

前往页尾底部查看PDF电子书

内容简介

1.从理论基础到实例应用,边学习边实践!
2.网罗数据挖掘中10种经典、常用的方法!
回归分析/Logistic回归分析/决策树分析/支持向量机/记忆基础推理/聚类分析/自组织映射/主成分分析/对应分析/关联规则分析
3.图文并茂,示例丰富,结合可下载的R代码和数据,让你亲自体验数据挖掘的流程!
如何预测邮件是否为垃圾邮件?
如何判断顾客会同时购买哪些商品?
如何根据股价数据判断经济的景气程度?
如何从SNS获取数据并分析?
……
大数据时代,必须了解数据挖掘!
本书首先介绍R的基础知识以及使用R进行数据挖掘的流程;然后结合具体示例、代码和图表介绍数据挖掘的10种常用方法;最 后介绍数据挖掘的实战案例,涉及多种方法的比较以及实际的大规模数据的分析。本书详略得当,脉络清晰,让你轻松入门数据挖掘。

作者简介

山本义郎(作者)
日本东海大学理学部数学系教授。著有《统计数据的可视化》《统计学序论》《概率统计序论 第 2版》(合著)。执笔本书最 2章、第6章、第9章、最 11章、最 12章、最 13章。
藤野友和(作者)
日本福冈女子大学国际文理学部讲师。著有《统计数据的可视化》(合著)。执笔本书最 1章、第3章、第4章、第8章。
久保田贵文(作者)
日本多摩大学经营信息学部副教授。执笔本书第5章、第7章、最 10章、最 14章。
朱建春(译者)
毕业于北京大学计算机系,曾在联想集团任职多年,是国内较早从事Windows掌上电脑和智能手机的系统和应用软件开发的IT工作者。后长期担任对日软件外包开发项目经理。

本书特色

本书使用R,结合大量实例,详细介绍了数据挖掘的理论和分析方法。全书分为3部分:最 1部分简单介绍了使用R进行数据挖掘的流程和数据挖掘的概要;最 2部分介绍了数据挖掘的10种常用方法,并在此基础上使用R实际进行数据挖掘;第3部分结合实际的数据挖掘事例介绍了如何使用这些方法。本书适合数据挖掘的初学者,以及正在从事数据分析相关工作,想了解更多分析方法的读者阅读。

目录

第I部分 使用R进行数据挖掘的准备 1

最 1章 基于R的数据分析入门..............................................................3

1.1 R及RStudio的安装..................................................................................4

1.2 RStudio的基本操作...................................................................................6

1.3 R语言入门.................................................................................................10

1.3.1 作为计算器使用的方法........................................................................10

1.3.2 向量——R的基本数据结构................................................................11

1.3.3 向量变量的赋值和运算........................................................................12

1.3.4 数组和矩阵.............................................................................................13

1.3.5 因子型.....................................................................................................15

1.3.6 列表.........................................................................................................16

1.3.7 数据框.....................................................................................................17

1.4 获取外部数据............................................................................................18

1.5 数据汇总.....................................................................................................19

1.6 安装程序包.................................................................................................21

1.7 基于dplyr程序包的数据框操作..........................................................22

1.8 数据的可视化............................................................................................25

1.8.1 柱状图.....................................................................................................26

1.8.2 直方图.....................................................................................................29

1.8.3 箱形图.....................................................................................................30

1.8.4 散点图.....................................................................................................32

1.8.5 逐层绘制的图.........................................................................................34

最 2章 数据挖掘概述..................................................................................36

2.1 大数据和数据挖掘...................................................................................36

2.2.1 业务理解(Business Understanding)..............................................37

2.2 CRISP-DM................................................................................................37

2.2.2 数据理解(Data Understanding).......................................................38

2.2.3 数据准备(Data Preparation)............................................................38

2.2.4 建模(Modeling)..................................................................................39

2.2.5 评估(Evaluation)................................................................................39

2.2.6 运用(Deployment).............................................................................39

2.3.1 数据的种类和建模................................................................................40

2.3 数据挖掘的方法........................................................................................40

2.3.2 预测和判别.............................................................................................41

2.3.3 分类和聚类.............................................................................................41

2.3.4 维规约.....................................................................................................41

2.3.5 规则发现.................................................................................................41

第II部分 数据挖掘的方法 43

第3章 回归分析............................................................................................45

3.1 一元回归分析............................................................................................45

3.2 多元回归分析............................................................................................50

第4章 Logistic回归分析..........................................................................60

4.1 数据准备.....................................................................................................60

4.2 使用一个解释变量进行预测..................................................................61

4.3 使用两个及以上的解释变量进行预测................................................67

第5章 决策树分析.......................................................................................71

5.1 使用分类树的判别...................................................................................71

5.2 使用回归树的预测...................................................................................77

第6章 支持向量机.......................................................................................81

6.1 支持向量机的概念...................................................................................81

6.2 类别预测的例子........................................................................................83

6.3 数值预测的例子........................................................................................86

第7章 记忆基础推理..................................................................................89

7.1 k最 近邻法的概念....................................................................................89

7.2 变量的基准化和标准化..........................................................................94

第8章 聚类分析............................................................................................96

8.1 聚类分析的概念........................................................................................96

8.2 层次聚类分析............................................................................................97

8.3 执行层次聚类分析...................................................................................99

8.4 可视化进阶...............................................................................................103

8.5 非层次聚类分析......................................................................................107

8.6 执行非层次聚类分析.............................................................................107

第9章 自组织映射....................................................................................110

9.1 自组织映射的概念.................................................................................110

9.2 基于自组织映射的分析实例................................................................111

9.3 基于自组织映射的分类........................................................................120

最 10章 主成分分析.................................................................................129

10.1 主成分分析的概念...............................................................................129

10.2 对象数据的准备...................................................................................132

10.3 执行主成分分析...................................................................................135

最 11章 对应分析......................................................................................141

11.1 对应分析.................................................................................................141

11.2 多重对应分析........................................................................................144

最 12章 关联规则分析............................................................................149

12.1 关联规则及其评价指标......................................................................149

12.2 关联规则分析的实例..........................................................................151

12.3 关联规则分析的应用实例..................................................................159

第III部分 数据挖掘实战 165

最 13章 对各种预测方法的评估........................................................167

13.1 关于预测方法的评估..........................................................................167

13.2 类别预测的判别方法的比较.............................................................168

13.2.1 Logistic回归分析.............................................................................168

13.2.2 决策树分析........................................................................................173

13.2.3 支持向量机........................................................................................175

13.3 数值预测方法的比较..........................................................................176

13.3.1 多元回归分析....................................................................................176

13.3.2 决策树分析........................................................................................178

13.3.3 支持向量机........................................................................................180

最 14章 用股价数据生成综合指数...................................................181

14.1 获取股价数据........................................................................................181

14.2 根据股价数据生成综合指数.............................................................183

最 15章 SNS数据的分析......................................................................189

15.1 微博API.................................................................................................189

15.2 通过R获取微博信息.........................................................................192

15.3 分词及词频统计...................................................................................195

15.4 词云图.....................................................................................................197

百度网盘:https://pan.baidu.com/s/1xFQUzo49znUkQ9-s2ivy9A?pwd=iieh
- THE END -

非特殊说明,本博所有文章均为博主原创。