深入大型数据集:并行与分布化Python代码在线阅读
会员

深入大型数据集:并行与分布化Python代码

(美)J.T.沃勒翰
开会员,本书免费读 >

计算机网络编程语言与程序设计14.1万字

更新时间:2021-03-04 19:24:44 最新章节:内容简介

立即阅读
加书架
下载
听书

书籍简介

本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWSS3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。
译者:张若飞
上架时间:2021-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行

最新章节

(美)J.T.沃勒翰
主页

最新上架

  • 会员
    《高效C/C++调试》是关于软件调试技术的深度探索,融合了作者的实践智慧。书中不仅指导读者如何使用专业的调试工具,还介绍了如何宏观和微观地分析问题,并**限度地发挥调试器功能。此外,书中还深入解读了调试背后的技术原理,如调试符号、内存管理及系统内核对内存的操作机制,以揭示内存管理的关键性和复杂性。除了介绍基础概念外,本书还涵盖了许多增强调试能力的工具与插件。尽管焦点集中在C/C++,但其中的策略与
    (美)严琦 卢宪廷计算机16.3万字
  • 会员
    《Python从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行程序开发应该掌握的各方面技术。全书共分27章,包括初识Python、Python语言基础、运算符与表达式、流程控制语句、列表和元组、字典和集合、字符串、Python中使用正则表达式、函数、面向对象程序设计、模块、文件及目录操作、操作数据库、使用进程和线程、网络编程、异常处理及程
    明日科技编著计算机25.7万字
  • 会员
    《剑指JVM:虚拟机实践与性能调优》共分5篇:引言篇讲述了Java与Java虚拟机的关系,以及Java虚拟机的相关知识;第1篇讲述了运行时数据区,涉及Java内存区域的各个核心结构,以及对象创建的各种细节;第2篇讲述了垃圾收集,涉及各种收集算法、垃圾收集器;第3篇讲述了字节码与类的加载;第4篇讲述了性能监控与调优,带领读者学习Java虚拟机常用的监控与调优工具,并附有企业级的性能调优案例。
    尚硅谷教育计算机23万字
  • 会员
    《Vue3移动Web开发与性能调优实战》旨在向读者介绍如何使用Vue3和其他现代Web技术创建高性能的移动Web应用程序。《Vue3移动Web开发与性能调优实战》不仅详细介绍有关移动Web和Vue3的技术知识,包括HTML5、CSS3、Vue全家桶、构建工具Vite、移动Web屏幕适配等,并讲解如何使用这些技术来创建快速、可靠和可扩展的应用程序,还深入探讨各种性能优化技术,并向读者展示如何
    吕鸣计算机14.6万字
  • 会员
    《C语言从入门到精通(第6版)》从初学者的角度出发,以通俗易懂的语言、丰富多彩的实例,详细介绍了使用C语言进行程序开发需要掌握的各方面知识。全书分为4篇,共20章,内容包括C语言概述、算法、数据类型、运算符与表达式、数据输入/输出、选择结构、循环控制、数组、函数、指针、结构体和共用体、位运算、预处理、文件、内存管理、网络套接字编程、单词背记闯关游戏、学生信息管理系统、单片机基础和GSM短信控制家庭
    明日科技编著计算机18.5万字
  • 会员
    《智能优化算法与MATLAB编程实践》介绍了国内外新研发的10种智能优化算法,对每种算法的灵感来源、实现过程、函数编程、案例应用都进行了细致描述并给出详细的MATLAB代码,使读者快速掌握智能优化算法的学习和应用方法。全书共分为12章,前10章分别介绍10种智能优化算法的原理、MATLAB实现、具体函数寻优求解过程和应用案例;第11章列举了23种衡量智能优化算法性能的常见测试函数,并给出MATLA
    陈克伟 魏曙光主编计算机6.1万字
  • 会员
    本书就Python基础知识和交易策略的基本原理为切入点,由浅入深介绍了如何从零基础使用vn.py搭建自己交易系统。本书从原理着手到代码实践,内容由最基本的Python基础知识与Python中金融分析的常用包,逐步由浅入深介绍常用的指标并将使用vn.py进行实现。本书共分为8章,第1章与第2章介绍vn.py的环境搭建与Python常用的工具包,为后面使用vn.py实现交易策略做准备;第3章与第4章介
    欧阳鹏程编著计算机8.2万字
  • 会员
    《Python数据分析从入门到精通(第2版)》从数据分析初学者角度出发,以通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行数据分析程序开发应掌握的各方面技术。全书共分21章,包括数据分析基础、搭建数据分析开发环境、NumPy模块之数组计算、Pandas模块基础、Pandas模块之数据的读取、Pandas模块之数据的处理、Pandas模块之数据的清洗、数据的计算与格式化、数据统计及透视
    明日科技编著计算机16.7万字
  • 会员
    本书将JavaWeb开发的基础知识与实例有机地结合在一起,系统地介绍JavaWeb应用开发过程中的一些实用技术、系统设计与编程思想。本书主要内容包括JavaWeb开发基础、Servlet入门、Servlet应用、JSP应用开发、JDBC数据库应用开发、EL表达式与JSTL标签、基于WebMVC框架的项目实践。全书不仅介绍理论基础,更强调实际应用。本书可作为普通高等院校计算机相关专业的教材,
    曹慧 艾迪主编计算机9.5万字

同类书籍最近更新

  • 会员
    Java语言具有面向对象、跨平台、安全、稳定、多线程等优良特性,是目前软件设计中极为强大的编程语言。全书共分三篇(13章),循序渐进地介绍Java语言的入门基础、面向对象知识和核心API应用,包括标识符、关键字、数据类型、常量、变量、运算符、表达式和语句、程序的控制结构、数组、字符串、类和对象、封装、继承、多态、接口与包、异常处理、Java输入/输出流、Java图形用户界面编程、Java图形与多媒
    吴金舟 鞠凤娟程序设计13.1万字
  • 会员
    《Python从入门到精通(第2版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行程序开发应该掌握的各方面技术。全书共分23章,包括初识Python、Python语言基础、运算符与表达式、流程控制语句、列表和元组、字典和集合、字符串、Python中使用正则表达式、函数、面向对象程序设计、模块、异常处理及程序调试、文件及目录操作、操作数据库、GUI界面编程、P
    明日科技编著程序设计17.2万字
  • 会员
    伴随Hadoop的成长,Hadoop不再是一个简单的数据分布式存储平台和工具,已经成长为一个完整的生态圈。本书采用Hadoop3.2.2版本,系统讲解Hadoop生态系统主流的大数据分析技术。本书配套示例源码、PPT课件、教学大纲与编程环境。本书共分11章。内容包括Hadoop概述与大数据环境准备、Hadoop伪分布式集群搭建、HDFS分布式存储实战、MapReduce实战、ZooKeeper与高
    迟殿委 陈鹏程主编程序设计7万字
  • 会员
    这是一本Qt6编程入门书,同步讲解了QtWidgets和QtQuick编程内容。全书共14章,前8章是基础内容,包括Qt概述、QtWidgets窗口部件和QtQuick控件、布局管理、事件系统、界面外观等内容,其中穿插介绍了QtCreator开发环境、Qt信号和槽机制、Qt程序编译过程、QML语法基础等知识;第9章介绍图形动画基础;第10~12章介绍数据存储和显示的相关内容,本书从Qt
    霍亚飞编著程序设计21.4万字
  • 会员
    Go语言是近几年广受关注的一门新兴编程语言,在设计之初就致力于解决C语言的低效问题,以及C++语言的晦涩、难用等缺陷。Go语言吸收了C、C++强大的开发功能优势,继承了C、C++的编程风格,被广泛应用于构建数字基础设施类软件,以及图形/图像处理、移动应用、人工智能、机器学习等领域,广受国内外大型IT公司的推崇和关注。本书除了讲解Go语言的基本开发知识,还提供了3个完整的实战项目及131个源码示例。
    刘瑜程序设计11.6万字
  • 会员
    本书重点介绍了MATLAB的功能及其在电气与电子信息类相关专业领域中的应用。全书共分9章,主要内容包括:MATLAB系统环境,MATLAB应用基础,MATLAB绘图,MATLAB数值计算与符号计算,Simulink仿真工具箱,控制系统工具箱,信号处理工具箱,通信工具箱,以及SimPowerSystem工具箱。每章后面都配有实验指导,紧扣教学内容,使读者能够通过上机操作及时有效地掌握该章的主要内容,
    贺超英 王少喻编著程序设计10.4万字