zoukankan      html  css  js  c++  java
  • mahout的数据文件格式

    原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

    Mahout支持许多格式的文件以便实现各种工作。
    文件格式
    可导入的文件格式
    1.
    文本文件
            (1)满足
    以下格式的文本可以转化为流数据文件导入:
                
    (行号,行文本)
                
    (文件名,文件的全部内容)
                
    (行号,行份的用正则表达式模式)
           
    (2)可以解析为Lucene索引的文本:
                   
    精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
    2.
    ARFF文件
            
    WEKA(来源)项目文本数据格式
           
    可以<Int,Vector>格式生成流文件的数据
    3.
    邮箱文件
              
    满足以下格式的邮件可以转化为流数据文件导入
                
    (邮件ID,电子邮件消息的文本正文)
                
    没有HTML或附件支持
    4.
    CSV文件
            不导入行头和列头

            
    没有“多个值,每列”选项
    5.
    Hadoop的流文件
            
    规范的,没有变化。目前没有使用的元数据。
    6.
    Lucene索引
           
    转换为流文件
                
    精确的索引设计?

    可导出的格式

        hadoop的流文件

        
    文本行,可以使用toString()函数的类型
        
    MatrixWritable ConfusionMatrix
       
    可供MatrixWritable使用的CSV
        
    一个特殊的CSV格式集群
        
    GraphML XML集群

    流文件中存储的内容的格式
    “简化的”
    文本vectors
    文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

    编码的文本载体
    文档以vectors的形式存储然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。

    字典
    每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

    矩阵
    矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。

    集群
    复杂的数据结构被存储在集群。

    FPGrowth集群
    这些都存储在一个自定义的数据结构。

    生命周期

    所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。

  • 相关阅读:
    Mac上的USB存储设备使用痕迹在新版操作系统有所变化
    Beware of the encrypted VM
    A barrier for Mobile Forensics
    Second Space could let suspect play two different roles easily
    Take advantage of Checkra1n to Jailbreak iDevice for App analysis
    Find out "Who" and "Where"
    Where is the clone one and how to extract it?
    Downgrade extraction on phones running Android 7/8/9
    高版本安卓手机的取证未来
    How to extract WeChat chat messages from a smartphone running Android 7.x or above
  • 原文地址:https://www.cnblogs.com/AI001/p/3368881.html
Copyright © 2011-2022 走看看