Spark 3.x大数据分析实战(视频教学版)在线阅读
会员

Spark 3.x大数据分析实战(视频教学版)

张伟洋
开会员,本书免费读 >

计算机网络数据库11.4万字

更新时间:2023-07-17 19:33:04 最新章节:9.6 动手练习

立即阅读
加书架
下载
听书

书籍简介

本书基于Spark3.2.x版本,从Spark核心编程语言Scala讲起,涵盖了当前整个Spark生态系统主流的大数据开发技术。全书共9章,第1章讲解了Scala语言的基础知识,包括IDEA工具的使用等;第2章讲解了Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行;第3~9章讲解了离线计算框架SparkRDD、SparkSQL和实时计算框架Kafka、SparkStreaming、StructuredStreaming以及图计算框架GraphX等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书通俗易懂,案例丰富,注重实操,适合Spark新手和大数据开发人员阅读,也可作为培训机构和高校大数据及相关专业的教学用书。
品牌:清华大学
上架时间:2022-09-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行

最新章节

张伟洋
主页

同类热门书

最新上架

  • 会员
    本书是一本介绍分布式数据库基础内容与应用的大数据专业类图书,力求培养读者对分布式数据库的应用技能。本书共11章,采用原理+代码实例+综合案例的编写形式,清晰明了地介绍分布式数据库的原理、基础应用、进阶应用及主流工具的使用方法、应用场景,以理实结合为编写要求,让读者能够轻松学习和掌握分布式数据库的内容。本书可以作为高等院校计算机、网络技术等相关专业的教材,也可以作为数据库相关工作的从业人员的参考用书
    闭应洲 许桂秋 刘军主编计算机14万字
  • 会员
    《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发
    张伟洋计算机9万字
  • 会员
    时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着物联网技术在智能制造、交通、能源、智慧城市等领域的发展,时序数据库也发展迅速,成为搭建应用的必备数据库之一。《深入理解InfluxDB》从InfluxDB的安装开始,一步步详细介绍InfluxDB的功能及原理,带领读者深入理解以InfluxDB为代表的时序数据库。
    郑强 张伟 刘爽计算机7.6万字
  • 会员
    本书瞄准当前高校MySQL数据库教学与实验的需求,在MySQL8.0的基础上编写而成。全书分为两篇。第一篇为MySQL数据库基础,内容包含:数据库基础、MySQL语言、数据定义、数据操纵、数据查询、视图和索引、MySQL编程技术、MySQL安全管理、备份和恢复、事务管理、PHP和MySQL教学管理系统开发。第二篇为MySQL实验,所编排的各个实验与第一篇中的各章(除第10、11章外)内容相对应,
    赵明渊 唐明伟主编计算机12万字
  • 会员
    《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。
    刘林 李朝成 饼干哥哥计算机16.8万字
  • 会员
    本书旨在向广大有志于投身芯片设计行业的人士及正在从事芯片设计的工程师普及芯片设计知识和工作方法,使其更加了解芯片行业的分工与动向。本书共分9个章节,从多角度透视芯片设计,特别是数字芯片设计的流程、工具、设计方法、仿真方法等环节。凭借作者多年业内经验,针对IC新人关心的诸多问题,为其提供了提升个人能力,选择职业方向的具体指导。本书第1章是对IC设计行业的整体概述,并解答了IC新人普遍关心的若干问题。
    白栎旸编著计算机29.9万字
  • 会员
    这是一套数据指标体系全流程构建(从规划、框架设计、数据采集加工到应用)方法论与实践指南。它不仅深入浅出地分享了通用的数据指标体系构建策略,还通过多个行业实例展示了具体操作方法。书中从数据采集入手,借助BI工具Superset实践构建过程。本着“一切技术都是为业务服务的”这一宗旨,本书除了包含数据指标体系构建相关内容外,还结合统计学原理及Excel、Python等工具,深入剖析数据指标波动对业务的影
    李渝方计算机12.7万字
  • 会员
    本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需
    黄佳计算机12万字
  • 会员
    本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案
    许可乐编著计算机6.7万字

同类书籍最近更新

  • 会员
    本书聚焦于个人层面的信用违约技术研究、风险预警与监控系统的实现,但其中的技术也可以便捷地应用于企业征信。全书由浅入深、循序渐进地讲述了大数据时代下的征信技术。全书分为三个部分,第一部分是基础技术研究,介绍了征信业务中多源、多模态数据的融合方法,以及大数据征信模型的归因分析与解释性研究;第二部分是信用评估技术研究,包括大数据征信场景下时序数据的挖掘与分析,违约风险评估预警技术,以及不同区域的差异性对
    孙圣力 罗宁 张福浩编著数据库17.1万字
  • 会员
    本书内容涵盖数据可视化概述、可视化的基础(数据)、可视化任务的概念、如何定义自己的可视化任务、视觉编码设计的理论基础和应用场景、交互和多视图、可视分析、Web数据可视化工具,以及可视化领域常用的可视化图表。本书可作为高校计算机相关专业的高年级本科生及低年级研究生学习数据可视化的入门教材,也可供对数据分析能力有要求的其他专业的学生学习参考,还可作为从事数据科学、数据分析的研究人员和技术人员的参考手册
    朱敏 甘启宏 邓韩彬主编数据库9.9万字
  • 会员
    本书以HadoopHDFS为载体,介绍了构建一款分布式系统(尤其是存储方向)所需的核心技术,所有内容均基于当前较新的3.3.x/3.4.x版本,分别从理论和实践两个维度逐一阐述。本书主要包括两篇:核心原理篇介绍了HDFS的诞生历史、元数据及Block管理、节点间通信机制、读写数据流程和高可用实现原理等;拓展与实践篇从实际出发,充分考虑了用户在应用过程中会遇到的痛点,详细介绍了集群拓展方法、数据分层
    祝江华编著数据库13.8万字
  • 会员
    本书以程序设计作为基础,数据结构作为工具,六大核心算法作为目标,系统地介绍了算法设计中典型问题的求解过程。全书内容包括算法设计基础、递归算法、分治算法、贪心算法、动态规划算法、回溯算法、分支限界算法、实验指导。六大核心算法后都配有典型问题的C++代码,并结合实验指导辅助读者进行算法实践训练。
    王幸民 张晓霞数据库9.3万字
  • 会员
    本书系统而全面地介绍了云存储安全相关的关键技术及其最新研究成果。首先对云存储做一概述;然后从云存储安全体系结构说起,按照云存储安全的需求层次,依次介绍云存储虚拟化安全、云存储系统身份认证与访问控制、加密云存储系统、密文云存储信息检索、云存储服务的数据完整性审计、云存储数据备份与恢复等内容;最后介绍大数据时代的云存储安全。云存储服务是大数据时代数据存储的基础,保障云存储安全是大数据分析与计算的基石。
    陈兰香数据库21.1万字
  • 会员
    MicrosoftAzure是首家落地中国的国际公有云平台,由微软授权世纪互联在中国运营。MicrosoftAzure提供多种计算、数据服务、应用服务及网络服务,是当下最热门的技术。本书着重于实际的操作与演示,有大量的实际操作截图,并配有文字说明,由浅入深讲解微软云计算的平台管理与实际操作。全书共10章,第1章为云计算的基础理论和技术概念,第2章主要介绍目前微软的云平台产品和现状,从第3章以后
    马博峰编著数据库29.5万字