欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 培训 > hadoop集群单词统计(ssh与web)

hadoop集群单词统计(ssh与web)

2025/10/21 7:48:43 来源:https://blog.csdn.net/qq_44616044/article/details/148432786  浏览:    关键词:hadoop集群单词统计(ssh与web)

准备工作

本文不包含部署过程,请自行搜索教程
请确保已经部署好集群并且可正常启动
准备一个txt测试文件,例如
在这里插入图片描述

一、SSH

1.通过ssh连接集群的主节点

在这里插入图片描述

2.将刚才的txt文件上传到主机中

我这个软件是finalshell
在这里插入图片描述

3.启动集群

start-all.sh

在这里插入图片描述

4.上传测试文件

# 创建目录(-p 确保父目录存在)
hdfs dfs -mkdir -p /wordcount/input# 上传本地文件到 HDFS(假设你的数据在本地 /path/to/local/input)
hdfs dfs -put /path/to/local/input/* /wordcount/input/

注意这个目录是集群上的目录,和你本地目录不是一个意思

5.计算

(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

6.结果

hdfs dfs -ls /wordcount/output
hdfs dfs -cat /wordcount/output/part-r-00000

这个part文件你也可以再从集群下载到本地导出
在这里插入图片描述

二、web

web就不用ssh连接,都是虚拟机里直接操作

1.启动集群

start-all.sh

2.创建目录并上传文件

(1)打开浏览器,直接进入本地集群
在这里插入图片描述
(2)给权限

hdfs dfs -chmod 777 /

(3)创建目录/wordcount/input

(3)可以看到这是刚刚创建的目录,现在以当前用户新建wordcount2/input

可以直接修改权限
在这里插入图片描述

(4)input下上传文件
在这里插入图片描述

但是可能发现上传失败
看一下记录
在这里插入图片描述
这里我们可以看到是想通过2和3节点上传,但是windows不知道这两个节点的ip,所以连接不到,那么给windows系统配置一下

此目录下右键hosts选择属性
在这里插入图片描述
在这里插入图片描述

用记事本打开
最后面写上ip和名称对应,保存关闭
在这里插入图片描述

3.运行

回虚拟机,从刚才创建的目录执行
(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

(4)下载
回到web,刷新一下
在这里插入图片描述点进新的文件夹
在这里插入图片描述

下面那个就是结果,直接点击下载
在这里插入图片描述
记事本打开直接看结果
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词