Name: Hadoop+Spark+Python大数据处理从算法到实战
Author: 朱春旭(著)
ISBN: 9787301321447

0人評分過此書

Hadoop+Spark+Python大数据处理从算法到实战

作者

：

朱春旭 (著)

出版社

：

北京大学出版社有限公司

出版日期

：

2021

閱讀格式

：

EPUB

書籍分類

：

電腦 ; 學術書

學科分類

：

科學類

ISBN

：

9787301321447

朗讀功能

：

因版權限制，本書不支援朗讀功能

大数据 Docker Kubernetes Hadoop HBase Hive

擁有此書的圖書館

搜尋館別

選擇單位類型或單位所在地區

選擇單位類型：

選擇單位所在地區：

所有文化部計次圖書館

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館，圖書館會參考讀者意見進行採購

讀者資料

圖書館：

* 姓名：

* 身分：

系所：

* E-mail ：

※ 我們會寄送一份副本至您填寫的Email中

電話：

※ 電話格式為區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111

* 請輸入驗證碼：

更新驗證碼

內容簡介
目錄

2020年3月，国家提出要加快5G网络，数据中心等新型基础设施（简称新基建）进度。其中，信息化新型基础设施包含了云计算、大数据、人工智能、区块链、5G等内容。本书围绕新基建的云计算、机器学习及人工智能展开讲述大数据处理分析与实战应用，分为如下五个部分。第1部分：介绍了大数据的概念与特点，以及几个典型的产业应用场景。通过这些案例简介，期望读者能够了解大数据的前景，以及作为科技工作者肩负的使命。第2部分：介绍了目前云计算中的一个重要研究与应用领域----容器云。这一部分包含容器技术Docker与容器编排工具Kubernetes。Docker能封装操作系统、应用程序及其执行环境。对于整个大数据来说，Docker是Hadoop、Hbase、Spark这些组件的基础运行平台。一般大数据运行平台规模都比较宏大，因此这里使用了Kubernetes来对容器进行管理。这样，就构建了基于容器云的大数据平台。第3部分：是大数据分析的基础，也是大数据分析技术的重点。首先介绍了Hadoop的框架原理、调度原理、MapReduce原理与编程模型、环境搭建。由于Hadoop的HDFS存在一定的读写局限，因此引入了Hbase以支持实时读写。同样HDFS的数据也存在一定的分析局限，因此引入了Hive来构建数据仓库，以提高分析效率。在本篇最后，还引入了Spark这样的高性能框架，进一步提高了大数据处理能力。第4部分：是机器学习相关算法的应用篇。机器学习是一个复杂的过程，涉及到统计学、微积分、信息论等内容。考虑到学习门槛，在这一环节，首先简单介绍了相关算法的原理，然后介绍相对容易使用的机器学习工具Sklearn，使得读者建立起对机器学习开发流程的基本认知，之后介绍应用于大数据环境下Spark的机器学习库。相信通过对这一部分内容的学习，读者已经掌握了基本的机器学习问题的处理。第5部分：通过第一个实例介绍了如何使用Spark机器学习库中的协同过滤算法，来实现基于Web的推荐系统；通过第二个实例介绍了如何使用OpenCV与TensorFlow构建卷积神经网络来实现基于Web的人脸识别。
本书内容精练、重点突出、实例丰富，是广大数据分析工作者的参考书，同时也非常适合大、中专院校师生学习阅读，还可作为高等院校统计分析及相关专业的教材。