pachyderm, 在规模上,可以重复的数据科学 !

分享于 

3分钟阅读

GitHub

  繁體 雙語
A git-like distributed file system for a Dockerized world.
  • 源代码名称:pachyderm
  • 源代码网址:http://www.github.com/pachyderm/pachyderm
  • pachyderm源代码文档
  • pachyderm源代码下载
  • Git URL:
    git://www.github.com/pachyderm/pachyderm.git
    Git Clone代码到本地:
    git clone http://www.github.com/pachyderm/pachyderm
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/pachyderm/pachyderm
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    

    GitHub releaseGitHub licenseGoDocGo Report CardSlack Status

    Pachyderm: 数据管道

    Pachyderm是生产数据管道的工具。 如果你需要将数据收集。摄入。清洗。munging。处理。建模。建模和分析链接在一起,那么Pachyderm是为你提供的。 如果你有一组已经存在的脚本,并且你正在为它们寻找一种方法,那么可以让你轻松地理解它们。

    特性

    • 容器:Pachyderm是基于 Docker 和Kubernetes构建的。 无论你的管道需要什么语言或者库,它们都可以在Pachyderm上运行,可以轻松部署到任何云提供商或者。
    • 版本控制:Pachyderm版本在处理数据时控制你的数据。 你总是可以询问系统如何更改数据,看看差异,如果某些情况看起来不正确,则恢复。
    • 来源( aka数据沿袭): Pachyderm跟踪数据来自哪里。 Pachyderm跟踪创建结果的所有代码和数据。
    • 并行化:Pachyderm可以高效安排大规模并行工作负载。
    • 增量处理:Pachyderm了解数据的更改方式,并且足够聪明,只处理新数据。

    正在启动

    在about分钟内,在本地安装 ,或者在 AWS/GCE/Azure 上部署

    你还可以参考我们完整的开发文档,查看教程,查看示例项目,并了解Pachyderm的高级特性。

    如果你想了解一些示例并了解Pachyderm的核心用例,请执行以下操作:

    文档

    官方文档

    社区

    保持最新并通过以下方式获得Pachyderm支持:

    要开始,请在许可协议上签名。

    你还应该查看我们的贡献指南。

    我们希望能看到你所做的一切 ! 你也可以检查我们的"noob友好"问题,把标记为一个好地方。 我们有时不能让那个标签更新,所以如果你看不到,就让我们知道。

    加入我们

    我们在招聘爱 Docker,去分布式系统? ! 了解更多关于我们团队的信息,并在 jobs@pachyderm.io 电子邮件。

    使用度量

    Pachyderm自动报告匿名的使用率度量。 这些指标帮助我们了解人们如何使用Pachyderm并使之更好。 可以通过在pachd容器中将env变量 METRICS 设置为 false 来禁用它们。


    数据  rep  SCA  REPR  Scale  
    相关文章