大数据 - 有勇气的牛排个人博客

有勇气的牛排博客

☰

大数据

sqoop 基础教程

sqoop是apache下的一款数据同步传输工具，可以将关系型数据库中的数据与HDFS互相同步，其专门为大数据传输而设计。原理：将迁移命令转换成MR程序，没有reduce任务。常用版本推荐：sqoop-1.4.7~1.4.7 sqoop1.99+基本偏向于服务化。

有勇气的牛排

2023-02-28 16:29:38

hadoop hdfs 数据的均衡之负载均衡

修改传输配置

有勇气的牛排

2022-12-27 10:13:32

工作流调度系统 Azkaban介绍与安装（一）

（1）一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序、java程序、MapReduce程序、Hive脚本等。（2）各个单元之间存在时间先后及前后依赖关系（3）为了很好地组织这样的复杂执行计划，需要一个工作流调度系统来执行。

有勇气的牛排

2022-12-25 15:16:29

工作流调度系统 Azkaban使用方法大全（二）

1 案例 1.1 Hello World 1.2 作业依赖案例 1.3 自动失败重试 1.4 手动失败重试 2 JavaProcess作业案例 3 条件工作流 3.1 运行时参数 3.2 预定义宏案例 4 定时执行 5 报警 5.1 邮件 5.2 电话告警 5 Azkaban 多 Executor 模

有勇气的牛排

2022-12-22 17:00:19

hadoop集群报错总结

1 案例 1.1 Hello World 1.2 作业依赖案例 1.3 自动失败重试 1.4 手动失败重试 2 JavaProcess作业案例 3 条件工作流 3.1 运行时参数 3.2 预定义宏案例 4 定时执行 5 报警 5.1 邮件 5.2 电话告警 5 Azkaban 多 Executor 模

有勇气的牛排

2022-12-07 12:02:27

hive数据类型、表创建、数据导入导出、动态分区Dynamic Partition

1 Hive基础数据类型 1.1 复杂数据类型 2 数据库、表操作 2.1 创建数据库 2.2 创建表 2.3 删除表 2.4 修改表 2.5 查表 3 数据导入 3.1 本地文件系统导入 4 常用参数 5 动态分区注意事项 5.1 是否允许动态分区 5.2 动态分区的模式设置 5.3 单个节点上的mapper/reducer允许创建的最大分区...

有勇气的牛排

2022-12-04 18:04:37

hadoop HA高可用集群实战

HA（high available），即高可用（24h不中断服务）实现高可用最关键的策略是消除单点故障。HA严格来说是应该分成各个组件的HA机制 hadoop2.0之前，在HDFS集群中NamNode存在单点故障（SPOF） NameNode主要存在以下两个方敏影响HDFS集群。 NameNode机器发生意外，如宕机，集群无法使用，直到管理员重启。...

有勇气的牛排

2022-12-04 18:03:30

DolpinScheduler2.0.5详细介绍与踩坑实战

Apache DolphinScheduler是一个分布式易扩展的可视化工作流任务调度平台，致力于解决数据处理流程中错综复杂的关系，使调度系统在数据处理流程中开箱即用。

有勇气的牛排

2022-12-04 18:00:44

hadoop程序开发（python）

1 首先建立mapper.py 2 建立reducer.py 3 在Hadoop上运行Python

有勇气的牛排

2022-12-04 17:29:15

hadoop程序开发（Java）

1、创建maven项目 2、在pom.xml写入架包配置文件 3、创建源程序 4、将WordCount.java 打包为jar文件（1）基本配置（2）开始打包（3）查看生成的jar文件 5、运行 6、结束

有勇气的牛排

2022-12-04 17:26:04

hadoop 全分布式部署

1 环境配置 1.1 系统变量 1.2 hadoop-env.sh 2 主节点配置 core-site.xml 3 hdfs配置 hdfs-site.xml 4 mapreduce配置 mapred-site.xml 5 yarn配置 yarn-site.xml 6 配置节点域名 7 完成分发任务 8 启动 8.1.1 全启动（推荐） 8.1.2...

有勇气的牛排

2022-12-04 17:18:40

单机版 hadoop 云平台（伪分布式）搭建统计单词

1.首先需要配置java环境 2.上传hadoop到/usr/local目录并解压 3.配置hadoop环境目录 4.在hadoop配置文件配置java jdk 5.查看 6.统计单词 7.查看结果

有勇气的牛排

2022-07-07 11:28:44

Zookeeper使用介绍与集群搭建实战

Zookeeper是一种分布式协调服务，用于管理大型主机。在分布式环境中协调和管理服务式环境中协调和管理服务是一个复杂的过程。Zookeeper通过简单的架构和API解决了这个问题。Zookeeper允许开发人员专注于核心应用程序逻辑，而不必担心应用程序的分布式特性。

有勇气的牛排

2022-06-10 22:20:34

« 上一页
1
下一页 »

专栏