《Python+Spark 2.0+Hadoop机器学习与大数据实战》林大贵 9787302490739 【清华大学出版社官方正版电子书】- 文泉书局

Python+Spark 2.0+Hadoop机器学习与大数据实战

出版日期： 2017-12-23

电子书：￥64.34 （ 定价：99.0 ）纸书价格￥78.10，点此比价

收藏
加书架
引用

简介

本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭建过程，同样可以实现将自己的平台搭建在多台实体计算机上，以便更加接近于大数据和机器学习真实的运行环境。本书非常适合于学习大数据基础知识的初学者阅读，更适合正在学习大数据理论和技术的人员作为上机实践用的教材。

编辑推荐

1.Hadoop集群安装与分散式运算和存储介绍通过实机操作，学会如何安装Virtual Box、Ubuntu Linux、Hadoop单机与多台机器集群安装，并学会使用HDFS分散式存储与MapReduce分散式运算。 2.Python Spark 2.0安装通过实机操作，学会安装Spark 2.0，并在本机与多台机器集群执行Python Spark应用程序。同时介绍如何在iPython Notebook互动界面执行Python Spark指令。安装eclipse整合开发界面，开发Python Spark应用程序，大幅提升程序开发生产力。 3.Python Spark SQL、DataFrame数据统计与数据可视化 Spark SQL 即使非程序设计人员，只需要懂得SQL语法，就可以使用。DataFrame API 可使用类SQL的方法，如select()、groupby()、count()，很容易进行统计，大幅降低大数据分析的学习门槛。Spark DataFrame可转换为Pandas DataFrame，运用Python丰富的数据可视化组件（例如matplotlib）进行数据可视化。 4.Python Spark MLlib机器学习以大数据分析实际案例MoiveLens、StumbleUpon、CovType、BikeSharing介绍如何使用Python Spark运用机器学习演算法进行数据处理、训练、建立模型、训练验证找出最佳模型、预测结果。 5.Python Spark ML Pipeline机器学习流程以大数据实际案例示范使用Python Spark ML Pipeline机器学习流程进行二元分类、多元分类、回归分析，将机器学习的每一个步骤建立成Pipeline流程：数据处理 →运算法训练数据→建立模型→找出最佳模型→预测结果。Spark ML Pipeline 通过内建数据处理模块与机器学习运算法，减轻数据分析师在程序设计上的负担。

更多出版物信息

版权：清华大学出版社
出版： 2017-12-23
作者：林大贵
更新： 2023-06-07
书号：9787302490739
中图：TP274;TP311.561
学科：

工学

控制科学与工程
工学

计算机科学与技术
工学

软件工程

封面 1

扉页 2

内容简介 3

版权页 3

序 4

前言 6

本书章节与范例程序介绍 7

目录 12

第1章　Python Spark机器学习与Hadoop大数据 22

第2章　VirtualBox虚拟机软件的安装 40

第3章　Ubuntu Linux操作系统的安装 51

第4章　Hadoop Single Node Cluster的安装 78

第5章　Hadoop Multi Node Cluster的安装 101

第6章　Hadoop HDFS命令 138

第7章　Hadoop MapReduce 156

第8章　Python Spark的介绍与安装 169

第9章　在IPython Notebook运行Python Spark程序 197

第10章　Python Spark RDD 218

第11章　Python Spark的集成开发环境 250

第12章　Python Spark创建推荐引擎 302

第13章　Python Spark MLlib决策树二元分类 332

第14章　Python Spark MLlib逻辑回归二元分类 382

第15章　Python Spark MLlib支持向量机SVM二元分类 394

第16章　Python Spark MLlib朴素贝叶斯二元分类 403

第17章　Python Spark MLlib决策树多元分类 412

第18章　Python Spark MLlib决策树回归分析 428

第19章　Python Spark SQL、DataFrame、RDD数据统计与可视化 446

第20章　Spark ML Pipeline机器学习流程二元分类 483

第21章　Spark ML Pipeline机器学习流程多元分类 507

第22章　Spark ML Pipeline机器学习流程回归分析 520

正文结束 534

附录A　本书范例程序下载与安装说明 535

作者信息

林大贵

林大贵,从事IT行业多年，在系统设计、网站开发、数字营销、商业智慧、大数据、机器学习等领域具有丰富的实战经验。

Python+Spark 2.0+Hadoop机器学习与大数据实战

作者信息

林大贵

相关专题

Python 由浅入深

Python系列丛书

相关图书

大数据技术与机器学习Python实战

大数据技术与机器学习Python实战

医疗大数据与机器学习

医疗大数据与机器学习

移动通信大数据分析——数据挖掘与机器学习实战

移动通信大数据分析——数据挖掘与机器学习实战

大话数据科学——大数据与机器学习实战（基于R语言）

大话数据科学——大数据与机器学习实战（基于R语言）

大数据基础与Python机器学习

大数据基础与Python机器学习

机器学习应用实战

机器学习应用实战

实战机器学习

实战机器学习

Python机器学习实战

Python机器学习实战

Hadoop+Spark大数据巨量分析与机器学习整合开发实战

Hadoop+Spark大数据巨量分析与机器学习整合开发实战

相关课程

大数据与机器学习微课视频（董相志）-9787302564249

分布式机器学习实战（9787302552932/085311-01）

机器学习入门到实战——MATLAB 实践应用（9787302495147/075373-01）

Python快乐编程——机器学习从入门到实战-（9787302576969/084752-01）

机器学习与深度学习（Python版·微课视频版）（9787302606659/092309-01）

Python预测分析与机器学习（9787302592549/089464-01）

Python预测分析与机器学习（9787302592549/089464-01）

深度学习原理与PyTorch实战（9787302576860/090778-01）

跟我一起学机器学习（9787302592846/092231-01）

Python机器学习——数据分析与评分卡建模（微课版）（9787302516842/080057-01）