博客
关于我
TF-IDF mapreduce实现
阅读量:350 次
发布时间:2019-03-04

本文共 2033 字,大约阅读时间需要 6 分钟。

Hadoop TF-IDF 实验文档

前言

在编写过程中,我对代码进行了多次修改,可能导致前后内容不完全一致。请以最终发布的版本为准。


文章目录

1. 项目概述

2. TF Mapper

3. Combiner

4. Partitioner

5. Reducer

6. MAIN 函数

7. TF 测试

8. IDF Mapper

9. Combiner

10. Partitioner

11. Reducer

12. MAIN 函数

13. TF-IDF 测试

14. Client

15. POM 文件

16. 常见问题


1. 项目概述

这是一个基于 Hadoop 的文本处理项目,主要完成两个功能:

  • 文本频率(TF)计算-逆文本频率(IDF)计算
  • 结合 TF-IDF 进行文本排名

2. TF Mapper

功能描述

  • 输入:key(当前行偏移位置),value(当前行内容)
  • 输出:key(word:workname),value(TF 值,填充值为 1)
  • 实现:使用 Tokenizer 对行内容进行词语分割,输出格式为 word:workname,value 为 1。

3. Combiner

功能描述

  • 对相同 key 的值进行合并,将每个 word 在文档中的 TF 值统计总和。
  • Hadoop 文档指出,Combiner 不一定会运行,具体取决于 Map 和 Reducer 的输出。

4. Partitioner

功能描述

  • 根据 word 的 hash 值对数据进行分区,确保每个 Reducer 处理的数据量相等。
  • 默认分区数为 1,可以根据需要设置。

5. Reducer

功能描述

  • 输入:key(word:workname),value(TF 值)
  • 输出:key(word:workname),value(TF 值总和)
  • 实现:将所有 Reducer 的输出合并,输出总 TF 值。

6. MAIN 函数

功能描述

  • 设置工作名称、Mapper、Combiner、Partitioner、Reducer 类型。
  • 指定输入输出路径,确保输出目录不存在。

7. TF 测试

测试步骤

  • 创建 HDFS 目录:
    hadoop fs -mkdir /test-in
  • 复制测试文件:
    hadoop dfs -copyFromLocal /home/xjm/class3_spring/big-data/workspace/little /test-in
  • 查看文件是否复制成功:
    hadoop fs -ls /test-in
  • 运行测试:
    hadoop jar TF-IDF-1.0-SNAPSHOT.jar /test-in /test-out
  • 查看输出结果:
    hadoop fs -ls /test-out
    hadoop fs -cat /test-out/part-r-00000

  • 8. IDF Mapper

    功能描述

    • 输入:key(当前行偏移位置),value(当前行内容)
    • 输出:key(word),value(1)
    • 实现:直接输出 word 值。

    9. Combiner

    功能描述

    • 将相同 key 的值合并,确保每个 word 在文档中只有一条记录。
    • 输出:key(word),value(1)。

    10. Partitioner

    功能描述

    • 根据 word 的 hash 值对数据进行分区。
    • 默认分区数为 1,可以根据需要设置。

    11. Reducer

    功能描述

    • 输入:key(word),value(IDF 值)
    • 输出:key(word),value(IDF 值)
    • 实现:对每个 word 的 IDF 值进行计算。

    12. MAIN 函数

    功能描述

    • 设置工作名称、Mapper、Combiner、Partitioner、Reducer 类型。
    • 计算文档总数并加入设置。
    • 指定输入输出路径,确保输出目录不存在。

    13. TF-IDF 测试

    测试步骤

  • 运行测试:
    hadoop jar TF-IDF-1.0-SNAPSHOT.jar /test-in /test-outIDF
  • 查看输出结果:
    hadoop fs -ls /test-outIDF
    hadoop fs -cat /test-outIDF/part-r-00000

  • 14. Client

    功能描述

    • 启动客户端运行所有任务。
    • 自动删除已存在的输出目录。

    15. POM 文件

    描述

    • 包含项目依赖、编译配置和入口类设置。
    • 主要依赖项包括 Hadoop 和相关组件。

    16. 常见问题

    1. 导入错误

    • pom 文件中添加 Hadoop 依赖。
    • 手动添加 Hadoop jar 包到 classpath。

    2. 运行超时

    • 检查 Hadoop 集群状态。
    • 确保节点健康,删除不健康节点。

    3. 等待 AM 容器

    • 确保集群资源足够。

    通过以上内容,读者可以完整了解项目实现、测试步骤及常见问题解决方法。

    转载地址:http://kumq.baihongyu.com/

    你可能感兴趣的文章
    Openlayers高级交互(18/20):根据feature,将图形适配到最可视化窗口
    查看>>
    Openlayers高级交互(19/20): 地图上点击某处,列表中显示对应位置
    查看>>
    Openlayers高级交互(2/20):清除所有图层的有效方法
    查看>>
    Openlayers高级交互(20/20):超级数据聚合,页面不再混乱
    查看>>
    Openlayers高级交互(3/20):动态添加 layer 到 layerGroup,并动态删除
    查看>>
    Openlayers高级交互(4/20):手绘多边形,导出KML文件,可以自定义name和style
    查看>>
    Openlayers高级交互(5/20):右键点击,获取该点下多个图层的feature信息
    查看>>
    Openlayers高级交互(6/20):绘制某点,判断它是否在一个电子围栏内
    查看>>
    Openlayers高级交互(7/20):点击某点弹出窗口,自动播放视频
    查看>>
    Openlayers高级交互(8/20):选取feature,平移feature
    查看>>
    Openlayers高级交互(9/20):编辑图形(放缩、平移、变形、旋转),停止编辑
    查看>>
    Openlayers:DMS-DD坐标形式互相转换
    查看>>
    openlayers:圆孔相机根据卫星经度、纬度、高度、半径比例推算绘制地面的拍摄的区域
    查看>>
    OpenLDAP(2.4.3x)服务器搭建及配置说明
    查看>>
    OpenLDAP编译安装及配置
    查看>>
    Openmax IL (二)Android多媒体编解码Component
    查看>>
    OpenMCU(一):STM32F407 FreeRTOS移植
    查看>>
    OpenMCU(三):STM32F103 FreeRTOS移植
    查看>>
    OpenMCU(三):STM32F103 FreeRTOS移植
    查看>>
    OpenMCU(二):GD32E23xx FreeRTOS移植
    查看>>