有勇气的牛排博客

基于hadoop 某新闻平台用户点击视频统计_200001

有勇气的牛排 252 大数据项目 2023-04-20 08:45:41

1 课程论文

1 绪论 3 1.1 Hadoop平台项目介绍 3 1.2 国内外发展情况 3 1.2.1 国内发展情况 3 1.2.2 国外发展情况 5 1.3 意义 7 2 Hadoop与MapReduce介绍 7 2.1 Hadoop介绍 8 2.1.1 Hadoop架构 8 2.1.2 Hadoop优点 8 2.1.3 Hadoop缺点 9 2.2 Hadoop 能解决的问题 9 2.3 MapReduce 介绍 9 2.3.1 MapReduce 基本含义 9 2.3.2 MapReduce模型简介 10 2.3.3 MapReduce与传统并行计算框架的对比: 10 2.3.4 Map和Reduce函数 10 2.3.5 MapReduce工作流程 11 3 项目分析 12 3.1 运行原理 12 3.2 节点启动进程 12 3.2.1 DataNode 12 3.2.2 SecondaryNameNode 12 3.2.3 ResourceManager 12 3.2.4 NodeManager 13 3.2.5 NameNode 13 3.3 代码详解 13 4 总结 17 4.1 存在的问题 17 4.2 修正方案 18 4.3 收获和心得 18

1.1 Hadoop平台项目介绍
面对不断增大的数据量,单台主机已不能够满足计算与存储的需求,所以,目前主要使用分布式的计算与存储方式去分析处理这些大量的数据,并从中挖掘潜在的价值。其中,Hadoop平台是使用最多的一种开源式计算与存储框架。本文将通过“某新闻平台用户点击推送视频统计”进行具体介绍。
1.2 国内外发展情况
1.2.1 国内发展情况
1.百度
百度在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统。同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C编程接口,并对Hadoop进行深度改造,开发了HadoopC扩展HCE系统。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约300000个人物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过1500000个,每天Hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:数据平台系统、搜索支撑、广告系统、数据魔方、量子统计、淘数据、推荐引擎系统、搜索排行榜。为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。
3.腾讯
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:腾讯社交广告平台、搜搜(SOSO)、拍拍网、腾讯微博、腾讯罗盘、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ和QQ音乐。
4.奇虎360
奇虎360主要使用Hadoop-HBase作为其搜索引擎so.com的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。
5.华为
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。

image.png

2 数据统计原理分析

  • 项目编号:200001

本次统计数据量:1048576条

target:当前推荐的视频是否被用户点击了

guid:当前用户的id

image20201202224745541.png

这是统计数据目标:

曝光的视频数量: 即用户guid出现的次数

点击次数: 计算当前用户 target=1的次数

点击率: 点击次数/曝光的视频数量

3 MapReduce统计原理

image.png

4 分析结果

点击次数:837曝光的视频数量:15394,点击率:0.05 000012b09359ac17f324327ac6e600a5 点击次数:0曝光的视频数量:2,点击率:0.0 0000c4eb1da2bae0e94378040912d792 点击次数:0曝光的视频数量:2,点击率:0.0 0000d6629ab40e47a778c8793c937f0b 点击次数:0曝光的视频数量:1,点击率:0.0 00013192d769aaa12bfcdf95dd8ca28d 点击次数:0曝光的视频数量:9,点击率:0.0 0001cbb2efdb8713ef8f59ae70163080 点击次数:0曝光的视频数量:1,点击率:0.0 0001e51aba755cd8e61c4c70966278a7 点击次数:2曝光的视频数量:27,点击率:0.07 00029c2fa4ea7c0321f96489cc644bc3 点击次数:10曝光的视频数量:21,点击率:0.48 00035974e51a890b7ea5bec917d8b9f9 点击次数:0曝光的视频数量:5,点击率:0.0 00037b61eb3e4b32dca07aba0b3f21fb 点击次数:0曝光的视频数量:14,点击率:0.0 00039d6a46ea6e9988b9f3b75ed9f24b 点击次数:0曝光的视频数量:1,点击率:0.0 0003bf69c2ba189446daf5bb8cf46cb2 点击次数:0曝光的视频数量:1,点击率:0.0

5 项目展示

image.png

需要的可联系群主:
qq群:629640042

点击链接加入群聊【程序员兼职接单群】:https://jq.qq.com/?_wv=1027&k=3JarmEmO


留言

专栏
文章
加入群聊