基于hadoop 某新闻平台用户点击视频统计_200001
有勇气的牛排
250
大数据项目
2023-04-20 08:45:41
1 课程论文
1 绪论 3
1.1 Hadoop平台项目介绍 3
1.2 国内外发展情况 3
1.2.1 国内发展情况 3
1.2.2 国外发展情况 5
1.3 意义 7
2 Hadoop与MapReduce介绍 7
2.1 Hadoop介绍 8
2.1.1 Hadoop架构 8
2.1.2 Hadoop优点 8
2.1.3 Hadoop缺点 9
2.2 Hadoop 能解决的问题 9
2.3 MapReduce 介绍 9
2.3.1 MapReduce 基本含义 9
2.3.2 MapReduce模型简介 10
2.3.3 MapReduce与传统并行计算框架的对比: 10
2.3.4 Map和Reduce函数 10
2.3.5 MapReduce工作流程 11
3 项目分析 12
3.1 运行原理 12
3.2 节点启动进程 12
3.2.1 DataNode 12
3.2.2 SecondaryNameNode 12
3.2.3 ResourceManager 12
3.2.4 NodeManager 13
3.2.5 NameNode 13
3.3 代码详解 13
4 总结 17
4.1 存在的问题 17
4.2 修正方案 18
4.3 收获和心得 18
1.1 Hadoop平台项目介绍
面对不断增大的数据量,单台主机已不能够满足计算与存储的需求,所以,目前主要使用分布式的计算与存储方式去分析处理这些大量的数据,并从中挖掘潜在的价值。其中,Hadoop平台是使用最多的一种开源式计算与存储框架。本文将通过“某新闻平台用户点击推送视频统计”进行具体介绍。
1.2 国内外发展情况
1.2.1 国内发展情况
1.百度
百度在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统。同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C编程接口,并对Hadoop进行深度改造,开发了HadoopC扩展HCE系统。
2.阿里巴巴
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约300000个人物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过1500000个,每天Hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:数据平台系统、搜索支撑、广告系统、数据魔方、量子统计、淘数据、推荐引擎系统、搜索排行榜。为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。
3.腾讯
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:腾讯社交广告平台、搜搜(SOSO)、拍拍网、腾讯微博、腾讯罗盘、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ和QQ音乐。
4.奇虎360
奇虎360主要使用Hadoop-HBase作为其搜索引擎so.com的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。
5.华为
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。
…

2 数据统计原理分析
本次统计数据量:1048576条
target:当前推荐的视频是否被用户点击了
guid:当前用户的id

这是统计数据目标:
曝光的视频数量: 即用户guid出现的次数
点击次数: 计算当前用户 target=1的次数
点击率: 点击次数/曝光的视频数量
3 MapReduce统计原理

4 分析结果
点击次数:837曝光的视频数量:15394,点击率:0.05
000012b09359ac17f324327ac6e600a5 点击次数:0曝光的视频数量:2,点击率:0.0
0000c4eb1da2bae0e94378040912d792 点击次数:0曝光的视频数量:2,点击率:0.0
0000d6629ab40e47a778c8793c937f0b 点击次数:0曝光的视频数量:1,点击率:0.0
00013192d769aaa12bfcdf95dd8ca28d 点击次数:0曝光的视频数量:9,点击率:0.0
0001cbb2efdb8713ef8f59ae70163080 点击次数:0曝光的视频数量:1,点击率:0.0
0001e51aba755cd8e61c4c70966278a7 点击次数:2曝光的视频数量:27,点击率:0.07
00029c2fa4ea7c0321f96489cc644bc3 点击次数:10曝光的视频数量:21,点击率:0.48
00035974e51a890b7ea5bec917d8b9f9 点击次数:0曝光的视频数量:5,点击率:0.0
00037b61eb3e4b32dca07aba0b3f21fb 点击次数:0曝光的视频数量:14,点击率:0.0
00039d6a46ea6e9988b9f3b75ed9f24b 点击次数:0曝光的视频数量:1,点击率:0.0
0003bf69c2ba189446daf5bb8cf46cb2 点击次数:0曝光的视频数量:1,点击率:0.0
5 项目展示

需要的可联系群主:
qq群:629640042
点击链接加入群聊【程序员兼职接单群】:https://jq.qq.com/?_wv=1027&k=3JarmEmO
<h2><a id="1__0"></a>1 课程论文</h2>
<pre><div class="hljs"><code class="lang-shell">1 绪论 3
1.1 Hadoop平台项目介绍 3
1.2 国内外发展情况 3
1.2.1 国内发展情况 3
1.2.2 国外发展情况 5
1.3 意义 7
2 Hadoop与MapReduce介绍 7
2.1 Hadoop介绍 8
2.1.1 Hadoop架构 8
2.1.2 Hadoop优点 8
2.1.3 Hadoop缺点 9
2.2 Hadoop 能解决的问题 9
2.3 MapReduce 介绍 9
2.3.1 MapReduce 基本含义 9
2.3.2 MapReduce模型简介 10
2.3.3 MapReduce与传统并行计算框架的对比: 10
2.3.4 Map和Reduce函数 10
2.3.5 MapReduce工作流程 11
3 项目分析 12
3.1 运行原理 12
3.2 节点启动进程 12
3.2.1 DataNode 12
3.2.2 SecondaryNameNode 12
3.2.3 ResourceManager 12
3.2.4 NodeManager 13
3.2.5 NameNode 13
3.3 代码详解 13
4 总结 17
4.1 存在的问题 17
4.2 修正方案 18
4.3 收获和心得 18
</code></div></pre>
<p><strong>1.1 Hadoop平台项目介绍</strong><br />
面对不断增大的数据量,单台主机已不能够满足计算与存储的需求,所以,目前主要使用分布式的计算与存储方式去分析处理这些大量的数据,并从中挖掘潜在的价值。其中,Hadoop平台是使用最多的一种开源式计算与存储框架。本文将通过“某新闻平台用户点击推送视频统计”进行具体介绍。<br />
1.2 国内外发展情况<br />
1.2.1 国内发展情况<br />
<strong>1.百度</strong><br />
百度在2006年就开始关注Hadoop并开始调研和使用,在2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100PB,已经使用的超过74PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7500TB,输出超过1700TB。百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统。同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C<ins>编程接口,并对Hadoop进行深度改造,开发了HadoopC</ins>扩展HCE系统。<br />
<strong>2.阿里巴巴</strong><br />
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约300000个人物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过1500000个,每天Hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:数据平台系统、搜索支撑、广告系统、数据魔方、量子统计、淘数据、推荐引擎系统、搜索排行榜。为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。<br />
<strong>3.腾讯</strong><br />
腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:腾讯社交广告平台、搜搜(SOSO)、拍拍网、腾讯微博、腾讯罗盘、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ和QQ音乐。<br />
4.奇虎360<br />
奇虎360主要使用Hadoop-HBase作为其搜索引擎so.com的底层网页存储架构系统,360搜索的网页可到千亿记录,数据量在PB级别。截至2012年年底,其HBase集群规模超过300节点,region个数大于10万个,奇虎360在Hadoop-HBase方面的工作主要为了优化减少HBase集群的启停时间,并优化减少RS异常退出后的恢复时间。<br />
<strong>5.华为</strong><br />
华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。<br />
…</p>
<p><img src="https://img2.couragesteak.com/f3daeeb739175b837951b5a44695ce48.png" alt="image.png" /></p>
<h2><a id="2__57"></a>2 数据统计原理分析</h2>
<ul>
<li>项目编号:200001</li>
</ul>
<p>本次统计数据量:1048576条</p>
<p>target:当前推荐的视频是否被用户点击了</p>
<p>guid:当前用户的id</p>
<p><img src="https://img2.couragesteak.com/185f8287a9c88e227302e52859caab99.png" alt="image20201202224745541.png" /></p>
<p>这是统计数据目标:</p>
<p><strong>曝光的视频数量:</strong> 即用户guid出现的次数</p>
<p><strong>点击次数:</strong> 计算当前用户 target=1的次数</p>
<p><strong>点击率:</strong> 点击次数/曝光的视频数量</p>
<h2><a id="3_MapReduce_81"></a>3 MapReduce统计原理</h2>
<p><img src="https://img2.couragesteak.com/b619e7577f19778a63977241941183d3.png" alt="image.png" /></p>
<h2><a id="4__85"></a>4 分析结果</h2>
<pre><div class="hljs"><code class="lang-txt"> 点击次数:837曝光的视频数量:15394,点击率:0.05
000012b09359ac17f324327ac6e600a5 点击次数:0曝光的视频数量:2,点击率:0.0
0000c4eb1da2bae0e94378040912d792 点击次数:0曝光的视频数量:2,点击率:0.0
0000d6629ab40e47a778c8793c937f0b 点击次数:0曝光的视频数量:1,点击率:0.0
00013192d769aaa12bfcdf95dd8ca28d 点击次数:0曝光的视频数量:9,点击率:0.0
0001cbb2efdb8713ef8f59ae70163080 点击次数:0曝光的视频数量:1,点击率:0.0
0001e51aba755cd8e61c4c70966278a7 点击次数:2曝光的视频数量:27,点击率:0.07
00029c2fa4ea7c0321f96489cc644bc3 点击次数:10曝光的视频数量:21,点击率:0.48
00035974e51a890b7ea5bec917d8b9f9 点击次数:0曝光的视频数量:5,点击率:0.0
00037b61eb3e4b32dca07aba0b3f21fb 点击次数:0曝光的视频数量:14,点击率:0.0
00039d6a46ea6e9988b9f3b75ed9f24b 点击次数:0曝光的视频数量:1,点击率:0.0
0003bf69c2ba189446daf5bb8cf46cb2 点击次数:0曝光的视频数量:1,点击率:0.0
</code></div></pre>
<h2><a id="5__102"></a>5 项目展示</h2>
<p><img src="https://img2.couragesteak.com/2276ce52f05d0fc67a200903796ee506.png" alt="image.png" /></p>
<p>需要的可联系群主:<br />
qq群:629640042</p>
<p>点击链接加入群聊【程序员兼职接单群】:<a href="https://jq.qq.com/?_wv=1027&k=3JarmEmO" target="_blank">https://jq.qq.com/?_wv=1027&k=3JarmEmO</a></p>
留言