
作者:朱尔尼
页数:184
出版社:电子工业出版社
出版日期:2014
ISBN:9787121236198
高清校对版pdf(带目录)
前往页尾底部查看PDF电子书
内容简介
对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在hadoop上构建数据分析应用。
使用诸如python、apache pig和d3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 heroku 中以 app 形式运行。
■ 用敏捷式大数据开发方法论创建分析应用
■ 用数据-价值栈,在一系列敏捷周期中创建价值
■ 用多种数据结构从单个数据集中提取特征,获取洞察
■ 用图表可视化数据,通过交互性报表从不同角度展示数据
■ 用历史数据进行预测,将预测转化为行动
■ 在每个迭代周期过后获取用户反馈,确保项目方向正确
作者简介
作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。
译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。
相关资料
“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”
—— mat kelcey matpalm.com博主
本书特色
《敏捷数据科学:用hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在hadoop 上构建数据分析应用;用python、apache pig 及d3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。
《敏捷数据科学:用hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。
目录
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
big words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
敏捷大数据流程 ................................................................................................... 11
代码检查和结对编程 ...........................................................................................12
敏捷的场所:开发的效率 ....................................................................................13
协作空间 .......................................................................................................14
私人空间 .......................................................................................................14
个人空间 .......................................................................................................14
用大幅打印件明确表达想法 ................................................................................15
第2 章 数据 ............................................................... 17
电子邮件 ..............................................................................................................17
处理原始数据 ......................................................................................................18
原始的电子邮件 ............................................................................................18
结构化与半结构化数据 .................................................................................18
sql ......................................................................................................................20
nosql .................................................................................................................24
序列化 ...........................................................................................................24
从演变的模式中抽取和展示特征 ..................................................................25
数据流水线 ...................................................................................................26
数据透视 ..............................................................................................................27
社交网络 .......................................................................................................28
时间序列 .......................................................................................................30
自然语言 .......................................................................................................31
概率 ...............................................................................................................33
小结 .....................................................................................................................35
第3 章 敏捷开发工具 ................................................... 37
可扩展性= 简洁...................................................................................................37
敏捷大数据处理 ...................................................................................................38
设置运行python 的虚拟环境 ...............................................................................39
使用avro 对事件进行序列化 ..............................................................................40
在python 中使用avro ..................................................................................40
收集数据 ..............................................................................................................42
使用pig 处理数据................................................................................................44
安装pig .........................................................................................................45
使用mongodb 发布数据 ....................................................................................49
安装mongodb ..............................................................................................49
安装mongodb 的java 驱动程序 .................................................................50
安装mongo-hadoop .......................................................................................50
用pig 向mongodb 推送数据 .......................................................................50
使用elasticsearch 搜索数据 ................................................................................52
安装 ...............................................................................................................52
使用wonderdog 整合elasticsearch 和pig ...................................................53
对工作流程的反思 ...............................................................................................55
轻量级的web 应用 ..............................................................................................56
python 和 flask .............................................................................................56
展示数据 ..............................................................................................................58
安装bootstrap ...............................................................................................58
启用bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可视化数据 ..................................................................63
小结 .....................................................................................................................64
第4 章 在云端 ............................................................. 65
引言 .....................................................................................................................65
github .................................................................................................................67
dotcloud ...............................................................................................................67
dotcloud echo 服务 .......................................................................................68
python 工作者服务 ........................................................................................71
amazon web services ..........................................................................................71
simple storage service ..................................................................................71
elastic mapreduce ........................................................................................72
mongodb 即服务 ..........................................................................................79
辅助工具(instrumentation) ................................................................................81
google analytics ...........................................................................................81
mortar data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示数据 ............................................... 89
整合软件栈 ..........................................................................................................90
收集并序列化收件箱 ...........................................................................................90
处理和发布邮件数据 ...........................................................................................91
在浏览器中显示邮件 ...........................................................................................93
用flask 和pymongo 处理邮件数据 ..............................................................94
使用jinja2 渲染html5 页面 ......................................................................94
敏捷检查点 ..........................................................................................................98
生成电子邮件清单 ...............................................................................................99
用mongodb 显示邮件 .................................................................................99
对数据展示的分析 ...................................................................................... 101
搜索邮件 ............................................................................................................ 106
使用pig,elasticsearch 和wonderdog 构建索引 ....................................... 106
在网页中搜索邮件数据 ............................................................................... 107
结论 ................................................................................................................... 108
第6 章 使用图表可视化数据 ....................................... 111
优秀的图表 ........................................................................................................ 112
抽取实体:邮件地址 ......................................................................................... 112
抽取邮件 ..................................................................................................... 112
对时间进行可视化 ............................................................................................. 116
结论 ................................................................................................................... 122
第7 章 利用报表探索数据 .......................................... 123
为数据添加联系 ................................................................................................. 126
用tf-idf 从邮件中提取关键字 ........................................................................ 133
小结 ................................................................................................................... 138
第8 章 预测 .............................................................. 141
预测电子邮件的回复率 ...................................................................................... 142
个性化 ................................................................................................................ 147
小结 ................................................................................................................... 148
第9 章 驱动行动 ........................................................ 149
好邮件的属性 .................................................................................................... 150
使用朴素贝叶斯方法进行更好的预测 ............................................................... 150
p(reply | from ∩ to) ........................................................................................ 150
p(reply | token) ................................................................................................. 151
实时预测 ............................................................................................................ 153
记录事件日志 .................................................................................................... 157
小结 ................................................................................................................... 157
索引 ........................................................................... 159
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://www.xiazainiu.com/Wd1qk_5_46490.html