Python和PySpark数据分析

作者: [加] 乔纳森·里乌 (Jonathan Rioux)著 殷海英 译

出版社: 清华大学出版社

出版日期: 2023-10-01

电子书 暂不销售 定价:118.0
  • 收藏

  • 加书架

  • 引用

简介

Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。 《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。 主要内容 ● 组织PySpark代码 ● 管理任何规模的数据 ● 充满信心地扩展你的数据项目 ● 解决常见的数据管道问题 ● 创建可靠的长时间运行的任务

编辑推荐

《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2023-10-01
  • 作者:[加] 乔纳森·里乌 (Jonathan Rioux)著 殷海英 译
  • 更新: 2024-03-06
  • 书号:9787302645368
  • 中图:TP311.561;TP274
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    工学
    软件工程

作者信息

[加] 乔纳森·里乌 (Jonathan Rioux)著 殷海英 译

作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

相关图书