第2章 Hadoop框架超详细讲解 (大数据)

发布时间:2021-09-29 00:50:30



文章目录
从Hadoop框架讨论大数据生态1.hadoop是什么?2.hadoop发展历史3. hadoop 发行版本4.hadoop 的优势(4高)5.hadoop 组成5.1 HDFS 架构概述5.2 yarn 架构概述5.2 MapReduce 架构概述
6.大数据技术生态体系推荐系统项目框架



从Hadoop框架讨论大数据生态
1.hadoop是什么?

i.hadoop 是由apche 基金会所开发的一个分布式系统基础框架
ii.主要解决数据存储和数据分析(海量的数据)
iii.更广泛的说hadoop是指一个更广义的概念?hadoop生态圈
如图:


2.hadoop发展历史

人物 :doug cutting


a. Lucene 框架是Doug cutting 开创的开源软件,用Java写的,实现全文搜索和查询架构,据说灵感来自他的妻子每天的菜谱。
b.2001年lucene 成为apche的一个子项目
c. 随着数据的增长,出现了存储困难,检索慢
d.hadoop的思想之源 (google 在大数据方面的三篇论文)
GFS ---->HDFS
Map-Reduce ----> MR
BigTable ?> HBase


e. doug cutting 等人实现了dfs和mapreduce的机制 使nutch 性能飙升。
f.名字来源于doug cutting 儿子的玩具大象
g. 2006年map-reduce 和 nutch distributed file system 被纳入hadoop项目中,Hadoop就此诞生,标志着大数据的来临!


3. hadoop 发行版本

三大发行版本:apache ,coudera ,hortonworks
apache 版本最原始(基础)的版本,入门较好。
coudera 企业用的比较多
hortonworks 文档好


Apache Hadoop下载地址
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/


4.hadoop 的优势(4高)

i .高可靠性 : hadoop底层维护多个数据副本,当计算或者存储出现故障,也不会导致数据丢失
ii.高扩展性:在集群分配任务数据,可以扩展数以千计的节点
iii.高效性: 在map -reduce的思想下,hadoop是并行的,加快任务的处理速度。
vi.高容错性: 能够自动将分配的失败的任务重新分配


5.hadoop 组成


5.1 HDFS 架构概述

1.namenode (n) :存储元数据
2.datanode: 存储文件块数据
3.secondaer namenode(2nn) 用来监控hdfs 的状态的后台程序,每个一段时间获取hdfs的元数据快照(保存当时的状态)。说白了就是负责辅助namenode的。


5.2 yarn 架构概述

yarn结构图


5.2 MapReduce 架构概述

what ?
hadoop map/reduce 是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千计算机组成的大型机器上,并可以处理T级别的数据集。
map (映射):主节点读入输入数据,把它分相同的方法解决的小数据块。并分到不同的工作节点上(worder nodes)
reduce (归约):主节点得到所有的子节点的处理结果,在组合并返回输出。
个人理解:
map 就是分,reduce则是合。


6.大数据技术生态体系


1.sqoop :一种开源工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
2.flume :负责日志收集和整合
3.kafka:发布订阅消息系统
4.storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户
5.spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算
6.Hbase:是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
7,hive:数据仓库工具
8.R语言:用户统计分析,绘图的语言操作环境。统计计算和统计制图的优秀工具
9.:zookeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户
10.Oozie:管理Hdoop作业(job)的工作流程调度管理系统
11.Mahout:可扩展的机器学*和数据挖掘库


推荐系统项目框架

相关文档

  • 老人简短的生日祝福语
  • 本科生管理会计论文范文
  • 经典古风签名的句子
  • 一切留在身边
  • 考研英语如何巧用真题
  • 关于描写健康的谚语俗语
  • iOS实践:OpenCV、Tesseract OCR结合 识别图片中文字
  • 给大三学生的忠告
  • 高中军训日记范文
  • 期末考试后个人总结模板示例
  • EasyUI IE8下很卡解决办法
  • 半夜喉咙干是什么原因
  • 人工智能之主观贝叶斯方法及贝叶斯公式附加相关习题
  • 关于还款计划书的范文
  • 2016年出版资格考试备考资料:出版活动对文化发展的影响
  • 苹果6s与苹果se哪个更好
  • 大数据之大数据技术架构
  • 高压锅做红烧鹅肉
  • 8类网线利弊_八类网线你用过吗?与六类、七类等网线有啥区别?
  • 有关描写青春的作文
  • 古墓疑踪69集
  • QT/C++ 未知重写说明符解决方案
  • 睡前小故事小熊穿皮鞋阅读
  • 狐狸的谎话
  • 八年级历史工作总结范文
  • 实用的交际口才训练与沟通技巧
  • 缅怀先烈的精彩演讲稿
  • 不完美的她台词句子大全不完美的她经典台词摘录
  • 史上最难的成语故事
  • iOS开发之UITableView使用总结
  • 猜你喜欢

  • 城镇居民低保申请书格式范文
  • 天神之战前期名仙推荐心得 天神之战什么名仙好
  • 计算机基础知识及常见故障排除 PPT课件
  • 青海铁航国际旅行社有限公司城北分公司企业信用报告-天眼查
  • 2.4 学生实验:测量密度(第1讲:测量固体密度)(练*题)-2016-2017学年八年级物理上册(解析版)
  • 最新中国农业银行抵押借款协议书
  • 2019精选教育一年级上册数学试题- 期末测试|苏教版.doc
  • 浅议山区林业与生态建设的相互作用
  • 2019年二年级学生日记-梦游记
  • find命令的用法实例
  • 三洋洗衣机e11解决
  • 高考地理一轮复*第4章自然环境对人类活动的影响章末综合检测湘教版练*
  • 2019届高考地理一轮复* 课时提升作业二十九 10.1 荒漠化的危害与治理――以我国西北地区为例
  • 达州宏川医药连锁有限责任公司亭子二连锁店企业信用报告-天眼查
  • 第十五章 其他类型继电器检验与调试
  • 服刑罪犯正常死亡善后处理工作新问题及对策分析
  • OA办公系统如何实现合同管理
  • 消化内科临床用药
  • 上海锐露医疗器械有限公司企业信用报告-天眼查
  • 马克生病了MarkIsIll
  • 陕西德轩置业有限公司企业信用报告-天眼查
  • 栀子花草本植物还是木本植物
  • 新疆森林公园生态文化建设的思考
  • 存货盘点专项内部审计报告 2500字
  • 王自立“治肝必柔肝,柔肝先养肝”思想探悉(一)
  • 西乡县宏达地材运输有限责任公司企业信用报告-天眼查
  • [中校联盟]福建省龙岩市武*县第一中学2014-2015学年高二(普通班)下学期期中考试物理试题(有答案)(强烈
  • 八年级沪科版八年级物理上册期中考试试卷
  • 1万粉的小红书kol报价_小红书母婴博主资源怎么找?小红书母婴种草软文撰写技巧分享!...
  • 最字的歇后语
  • 开机BIOS 出错提示中英文对照
  • 路线用英语怎么说
  • 浅谈机电设备故障维修与预防措施
  • 2019周末早安心语正能量说说周末早安心情简单一句话祝福语
  • 父亲节文艺晚会主持词2020年
  • 专项练*:人类与地理环境的协调发展
  • 小学品德与社会粤教版四年级上册第3课逛商场教案模板范文
  • 幼儿教育学试题及标准答案(8套)
  • 医院放射科18年工作计划
  • 河南咏雪文化传播有限公司企业信息报告-天眼查
  • 恩施自治州建始大窝坦煤矿有限责任公司(企业信用报告)- 天眼查
  • 2018-2019年天津市滨海新区塘沽广州道小学一年级上册数学复习题无答案(1)
  • 电脑版