streamDM, 流式流数据挖掘库

分享于 

3分钟阅读

GitHub

  繁體 雙語
Stream Data Mining Library for Spark Streaming
  • 源代码名称:streamDM
  • 源代码网址:http://www.github.com/huawei-noah/streamDM
  • streamDM源代码文档
  • streamDM源代码下载
  • Git URL:
    git://www.github.com/huawei-noah/streamDM.git
    Git Clone代码到本地:
    git clone http://www.github.com/huawei-noah/streamDM
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/huawei-noah/streamDM
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    用于Spark流的 streamDM

    streamDM是一个新的开源软件,用于使用 Spark流,在 Huawei的Huawei Huawei Huawei mining。 streamDM是在Apache软件许可证v2.0下许可的。

    大数据流学习

    大数据流学习比批处理或者离线学习更具挑战性,因为数据在流的生命周期中可能不会保持相同的分布。 这里外,流中的每个示例只能处理一次,或者需要汇总一个小的内存占用。

    Spark流

    是核心 Spark的扩展,它支持从各种源流处理流。 sparc是一个可以扩展且可以编程的框架,用于数据集的大量分布式处理,称为弹性分布式数据集( RDD )。 Spark流接收输入数据流并将数据分成批,然后由Spark引擎处理,以生成结果流。

    Spark流数据被组织成一系列 DStreams,在内部表示为RDDs序列。

    包含方法

    在 StreamDM v0.2的当前版本中,我们实现了:

    我们还实现了跟随数据生成器插件:

    • HyperplaneGenerator
    • RandomTreeGenerator
    • RandomRBFGenerator
    • RandomRBFEventsGenerator

    我们还实现了 SampleDataWriter插件,它可以调用数据生成器来创建模拟或者测试的示例数据。

    在streamDM的下一个版本中,我们将添加:

    • 分类:随机森林
    • 多标签:Hoeffding树 ML,随机森林 ML
    • 频繁项目集挖掘器:IncMine

    对于未来的工作,我们正在考虑:

    • 回归:Hoeffding回归树,包包,随机森林
    • 群集:Clustree,DenStream
    • 频繁项目集挖掘器:IncSecMine

    正在继续

    有关运行StreamDM的快速介绍,请参阅入门文档。 StreamDM 编程指南提供了StreamDM的详细视图。 完整的API文档可以在这里参考

    ##Mailing 列出了 ###User 支持和问题邮件列表: streamdm-user@googlegroups.com 相关讨论:streamdm-dev@googlegroups.com


    数据  str  spa  spark  Mining  数据挖掘  
    相关文章