
大数据
sqoop 基础教程
sqoop是apache下的一款数据同步传输工具,可以将关系型数据库中的数据与HDFS互相同步,其专门为大数据传输而设计。 原理:将迁移命令转换成MR程序,没有reduce任务。 常用版本推荐:sqoop-1.4.7~1.4.7 sqoop1.99+基本偏向于服务化。
hadoop hdfs 数据的均衡之负载均衡
修改传输配置
工作流调度系统 Azkaban介绍与安装(一)
(1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序、java程序、MapReduce程序、Hive脚本等。 (2)各个单元之间存在时间先后及前后依赖关系 (3)为了很好地组织这样的复杂执行计划,需要一个工作流调度系统来执行。
工作流调度系统 Azkaban使用方法大全(二)
1 案例 1.1 Hello World 1.2 作业依赖案例 1.3 自动失败重试 1.4 手动失败重试 2 JavaProcess作业案例 3 条件工作流 3.1 运行时参数 3.2 预定义宏案例 4 定时执行 5 报警 5.1 邮件 5.2 电话告警 5 Azkaban 多 Executor 模
hadoop集群报错总结
1 案例 1.1 Hello World 1.2 作业依赖案例 1.3 自动失败重试 1.4 手动失败重试 2 JavaProcess作业案例 3 条件工作流 3.1 运行时参数 3.2 预定义宏案例 4 定时执行 5 报警 5.1 邮件 5.2 电话告警 5 Azkaban 多 Executor 模
hive数据类型、表创建、数据导入导出、动态分区Dynamic Partition
1 Hive基础数据类型 1.1 复杂数据类型 2 数据库、表操作 2.1 创建数据库 2.2 创建表 2.3 删除表 2.4 修改表 2.5 查表 3 数据导入 3.1 本地文件系统导入 4 常用参数 5 动态分区 注意事项 5.1 是否允许动态分区 5.2 动态分区的模式设置 5.3 单个节点上的mapper/reducer允许创建的最大分区...
hadoop HA高可用集群实战
HA(high available),即高可用(24h不中断服务) 实现高可用最关键的策略是消除单点故障。HA严格来说是应该分成各个组件的HA机制 hadoop2.0之前,在HDFS集群中NamNode存在单点故障(SPOF) NameNode主要存在以下两个方敏影响HDFS集群。 NameNode机器发生意外,如宕机,集群无法使用,直到管理员重启。...
DolpinScheduler2.0.5详细介绍与踩坑实战
Apache DolphinScheduler是一个分布式 易扩展的可视化工作流任务调度平台,致力于解决数据处理流程中错综复杂的关系,使调度系统在数据处理流程中开箱即用。
使用python将es数据导出为csv文件
es数据导出到csv文件,仅谈实现方式。
python操作Elasticsearch7.17.0
python操作Elasticsearch7.17.0
轻量型日志采集器 Filebeat基本使用
Filebeat是一个日志文件托运工具,安装客户端后,filebeat会监控指令日志,
Elasticearch 查询详解(二)
一种软件架构风格,而不是标准,知识提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更改有层次,易于实现缓存的机制。
Elasticearch 安装 基础介绍 (一)
Elasticsearch是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。 它用于全文搜索、结构或搜索、分析以及将这三者混合使用
ElasticSearch配置优先使用自带jdk
ElasticSearch配置优先使用自带jdk
hadoop程序开发 (python)
1 首先建立mapper.py 2 建立reducer.py 3 在Hadoop上运行Python
hadoop程序开发(Java)
1、创建maven项目 2、在pom.xml写入架包配置文件 3、创建源程序 4、将WordCount.java 打包为jar文件 (1)基本配置 (2)开始打包 (3)查看生成的jar文件 5、运行 6、结束
hadoop 全分布式部署
1 环境配置 1.1 系统变量 1.2 hadoop-env.sh 2 主节点配置 core-site.xml 3 hdfs配置 hdfs-site.xml 4 mapreduce配置 mapred-site.xml 5 yarn配置 yarn-site.xml 6 配置节点域名 7 完成分发任务 8 启动 8.1.1 全启动(推荐) 8.1.2...
单机版 hadoop 云平台(伪分布式)搭建 统计单词
1.首先需要配置java环境 2.上传hadoop到/usr/local目录 并解压 3.配置hadoop环境目录 4.在hadoop配置文件 配置java jdk 5.查看 6.统计单词 7.查看结果
Zookeeper使用介绍与集群搭建实战
Zookeeper是一种分布式协调服务,用于管理大型主机。在分布式环境中协调和管理服务式环境中协调和管理服务是一个复杂的过程。Zookeeper通过简单的架构和API解决了这个问题。Zookeeper允许开发人员专注于核心应用程序逻辑,而不必担心应用程序的分布式特性。
- « 上一页
- 1
- 下一页 »