hadoop原理学习笔记 不含命令
时间:2023-08-13 04:37:00
hadoop实现海量数据的原理
如何学习机器hadoop对接 二次开发运行不考虑安装
数据是机器学习的核心 hadoop框架
谷歌100亿网页 2011年谷歌100万台服务器 双十一购物信息统计机
java hadoop是大数据工程师
操作和监控是操作和维护工程师 可安装部署监控hadoop云架构工程师是运维工程师
程序员为分布式系统改变程序和数据
云计算平台 租赁计算系统按小时计费 大量数据 海量数据处理计算 自己组建hadoop成本高
微软 亚马逊 华为 腾讯 阿里 费用昂贵
节点 机架 通过switch连接形成集群
多个节点做一件事 分布式多节点分工一件事 通过分布式集群hadoop调度将海量数据分解成块 并行处理 聚合
map reduce思想核心如何处理大规模数据? map任务key一般只有一个 1.map逐行 分解 预聚合 2.group by 排序 3.reduce key聚合 value聚合
hadoop 并行 yarn各项调度监控 子节点遍历数据块 一个块一个map 任务一个reduce
提高并行效率 调整map reduce默认处理文件大小 map进行预处理 远大于全部reduce集中处理数并行效率
节点故障 map所有此任务节点重启map reduce未完成重启即将完成reduce name节点呼叫管理员
spark 框架底层mapreduce 内存运行高效适用于计算计算学习 稳定性不如map map用数据准备占用硬盘io
hive提供数据查询hql底层mapreduce 效率高于用Mapreduce数据查询 需要装hadoop 或spark mysql适用于频繁修改hive适用于数据库查询
关联规则的基本概念
1.项目 每个数据样本 一件商品
2.事物 项目的集合 购物车
3.*项集 有意义的项目集合称为项目集 面包牛奶搭配经常出现 叫二项集
*参数
4.阀值 只有当支持度高到一定程度就会有观察的意义
5.支持度 项集频繁出现