酷徒LOGO

cnn-dailymail, 获取 CNN / Daily Mail 数据集( 非匿名)的代码


  • 源代码名称:cnn-dailymail
  • 源代码网址:http://www.github.com/abisee/cnn-dailymail
  • cnn-dailymail源代码文档
  • cnn-dailymail源代码下载
  • Git URL:
    git://www.github.com/abisee/cnn-dailymail.git
    Git Clone代码到本地:
    git clone http://www.github.com/abisee/cnn-dailymail
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/abisee/cnn-dailymail
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    

    此代码生成CNN / Daily Mail 摘要数据集的非匿名版本,如ACL 2017 paper中使用的选项1:下载已处理的数据

    用户@JafferWilson提供了经过处理的数据,你可以在选项2:自己处理数据

    1.下载数据

    从从这里下载CNN和Daily Mai并解压缩到stories目录中。

    警告:这些文件包含一些(114,在超过300.000的数据集中)示例,其中缺少文章文本,请参见示例cnn/stories/72aba2f58178f2d19d3fae89d5f3e9a4686bc4bb.story 已更新2.下载Stanford CoreNLP

    需要Stanford CoreNLP来标记数据,从这里下载它并解压缩,然后,将以下命令添加到bash_profile:

    
    export CLASSPATH=/path/to/stanford-corenlp-full-2016-10-31/stanford-corenlp-3.7.0.jar
    
    
    
    

    /path/to/替换为保存stanford-corenlp-full-2016-10-31目录的路径。可以运行以下命令检查它是否工作

    
    echo"Please tokenize this text." | java edu.stanford.nlp.process.PTBTokenizer
    
    
    
    

    你应该看到如下内容:

    
    Please
    
    
    tokenize
    
    
    this
    
    
    text
    
    
    .
    
    
    PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.
    
    
    
    

    3.进程转换为.bin和vocab文件

    运行

    
    python make_datafiles.py /path/to/cnn/stories /path/to/dailymail/stories
    
    
    
    

    /path/to/cnn/stories替换为你保存下载的cnn/stories目录的路径;对于dailymail/stories类似。

    此脚本将执行以下操作:

    创建目录cnn_stories_tokenizeddm_stories_tokenized,并用cnn/storiesdailymail/stories的标记化版本填充,这可能需要一些时间,注:你看到来自Stanford Tokenizer的几个Untokenizable:警告,这些与数据中的Unicode字符相关;到目前为止,忽略它们是可以的,对于每个url列表all_train.txtall_val.txtall_test.txt,从文件二进制文件,小写和已序列化的,这些被放置在新创建的finished_files目录中,这可能需要一些时间,另外,vocab文件是从训练数据创建的,这也是放置在finished_files,最后,train.binval.bintest.bin被拆分为每个块的1000个示例块,这些块文件将保存为finished_files/chunked,例如,train_000.bintrain_001.bintrain_287.bin,这需要几秒钟,可以使用单个文件或块文件作为Tensorflow代码(请参阅注意事项这里)的输入。




    Copyright © 2011 HelpLib All rights reserved.    知识分享协议 京ICP备17041772号-2  |  如果智培  |  酷兔英语  |  帮酷