dedupe, 用于精确和可以扩展的模糊匹配,记录重复数据删除和实体解析的python 库

分享于 

3分钟阅读

GitHub

 
A free python library for accurate and scalelable deduplication and entity-resolution. *Under construction*
  • 源代码名称:dedupe
  • 源代码网址:http://www.github.com/dedupeio/dedupe
  • dedupe源代码文档
  • dedupe源代码下载
  • Git URL:
    git://www.github.com/dedupeio/dedupe.git
    Git Clone代码到本地:
    git clone http://www.github.com/dedupeio/dedupe
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/dedupeio/dedupe
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    dedupe python库

    dedupe是一个python库,它使用机器学习在结构化数据上快速执行模糊匹配,重复数据删除和实体解析。

    dedupe将帮助你:

    从电子表格中删除名称和地址重复条目 将包含客户信息的列表链接到订单历史记录的另一个列表,即使没有唯一的客户id 建立活动捐赠数据库,并找出由同一个人制作的,即使每个记录的名称略有不同,

    重要网址

    版本库:https://github.com/dedupeio/dedupe

    问题

    https://github.com/dedupeio/dedupe/issues 邮件列表:https://groups.google.com/forum/#!forum/open-source-deduplication

    使用dedupe构建的工具

    Dedupe.io

    它提供了一个易于使用的接口,并提供集群审查和自动化,以及先进的记录链接,连续匹配和API集成。

    csvdedupe

    继续阅读源Knight Mozilla OpenNews

    安装

    使用dedupe

    如果你只想使用dedupe,请以下面的方式安装它:

    
    
    
    
    pip install "numpy>=1.9"
    
    
    pip install dedupe
    
    
    
    

    需要灵感>>一些示例

    开发deduple

    我们建议在虚拟开发环境中使用virtualenv虚拟环境包装器

    一旦你设置了virtualenvwrapper

    
    
    
    
    mkvirtualenv dedupe
    
    
    git clone git://github.com/dedupeio/dedupe.git
    
    
    cd dedupe
    
    
    pip install "numpy>=1.9"
    
    
    pip install -r requirements.txt
    
    
    cython src/*.pyx
    
    
    pip install -e .
    
    
    
    

    如果这些测试通过,那么一切都应该被正确安装!

     
    
    
    
    pytest
    
    
    
    
     
    
    
    
    workon dedupe
    
    
    
    

    测试

    core dedupe函数的单元测试

     
    
    
    
    pytest
    
    
    
    
    在Bilenko研究中的应用

    使用重复数据删除

    
    
    
    
    python tests/canonical.py
    
    
    
    

    使用记录链接

    
    
    
    
    python tests/canonical_matching.py
    
    
    
    

    acc  SCA  MAT  记录  Scale  Fuzzy  
    相关文章