天明的博客

人生苦短,及时行乐~


  • 首页

  • 标签

  • 分类

  • 归档

  • 搜索

orc存储格式简介

发表于 2018-08-24 | 阅读次数:
阅读全文 »

parquet存储格式简介

发表于 2018-08-23 | 阅读次数:
阅读全文 »

scala之传名参数和传值参数

发表于 2018-08-02 | 分类于 scala | 阅读次数:
简介传值参数(by-value parameter) 在函数调用之前表达式会被求值,例如Int,Long等数值参数类型;传名参数(by-name parameter) 在函数调用前表达式不会被求值,而是作为一个匿名函数传递。在介绍两者区别之前,先说一下 => 的用法。 => 用法=> ...
阅读全文 »

MapReduce的工作机制(四)

发表于 2018-08-01 | 分类于 大数据 , MapReduce | 阅读次数:
MapReduce之部分源码分析主要对部分重要函数源码进行分析。 OutputCommittersMapReduce使用一个提交协议确保作业和任务都完全成功或者失败。这个行为通过OutputCommitters实现。OutputCommitters的源码如下:12345678910111213141 ...
阅读全文 »

MapReduce的工作机制(三)

发表于 2018-08-01 | 分类于 大数据 , MapReduce | 阅读次数:
MapReduce之shuffle和排序MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为shuffle。 map端map函数开始产生输出时,利用缓冲的方式写到内存并出于效率的考虑进行预排序。 每个map任务都有一个环形内 ...
阅读全文 »

MapReduce的工作机制(二)

发表于 2018-08-01 | 分类于 大数据 , MapReduce | 阅读次数:
MapReduce之数据流MapReduce作业是客户端需要执行的衣蛾工作单元,它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个任务来执行,包括map任务和reduce任务。这些任务运行在集群的节点上,并通过YARN进行调度。 分片Hadoop将MapReduce的输入 ...
阅读全文 »

MapReduce的工作机制(一)

发表于 2018-08-01 | 分类于 大数据 , MapReduce | 阅读次数:
MapReduce作业简介MapReduce作业通过Job对象的submit()方法来调用。整个过程大概可以描述为: 客户端,提交MapReduce作业; YARN资源管理器,负责协调集群上计算机资源的分配; YARN节点管理器,负责启动和监视集群中机器的计算容器(container); MapR ...
阅读全文 »

YARN中的资源调度

发表于 2018-07-30 | 分类于 大数据 , YARN | 阅读次数:
YARN中有三种调度器可用:FIFO调度器(FIFO Scheduler),容量调度器(Capacity Scheduler)和公平调度器(Fair Scheduler)。 FIFO调度器(FIFO Scheduler)FIFO调度器将应用放置在一个队列中,然后按照提交的顺序(先进先出)运行应用。首 ...
阅读全文 »

YARN架构原理详解

发表于 2018-07-30 | 分类于 大数据 , YARN | 阅读次数:
YARN基本组件YARN的基本理念是将资源管理和任务调度/监控分成两个独立的服务:全局的资源管理器(ResoureManager)和单独任务的ApplicationMaster。 一个应用既是单独的一个任务,也是一个DAG的任务。YARN总体上仍然是master/slave结构,在整个资源管理框架中 ...
阅读全文 »

scala之模式匹配

发表于 2018-07-25 | 分类于 scala | 阅读次数:
简介模式可以当做对某个类型,其内部数据在结构上抽象出来的表达式。scala中模式匹配使用match关键字。match可以当做是java风格的switch的广义化。但是有三个区别: scala中的match是一个表达式,可以匹配各种情况; scala的可选分支不会贯穿到下一个case; 如果一个模式 ...
阅读全文 »
12
天明

天明

17 日志
8 分类
10 标签
GitHub
© 2018 天明