bist-parser, 基于BiLSTMs的基于图的依赖解析器和基于转换

分享于 

6分钟阅读

GitHub

  繁體 雙語
Graph-based and Transition-based dependency parsers based on BiLSTMs
  • 源代码名称:bist-parser
  • 源代码网址:http://www.github.com/elikip/bist-parser
  • bist-parser源代码文档
  • bist-parser源代码下载
  • Git URL:
    git://www.github.com/elikip/bist-parser.git
    Git Clone代码到本地:
    git clone http://www.github.com/elikip/bist-parser
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/elikip/bist-parser
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    内置BIST分析器

    基于特征提取器的基于的图形&过渡。

    本文介绍了解析器背后的技术,即使用双向LSTM特征表示方法进行简单和准确的依赖解析。 更进一步的材料可以在这里找到:这里。

    需要的软件训练解析模型

    软件要求 Having 一个 training.conlldevelopment.conll 文件格式符合 CoNLL数据格式。 对于基于图的解析器更改目录到 bmstparser ( 1200个单词/秒),并且以更精确的基于转换的解析器改变目录到 barchybrid ( 800字/秒)。 基准测试是在一个Mac处理器上进行的。 基于图的解析器acheives的精度为 UAS,基于转换的解析器在标准Penn数据集数据集上的精度为 94.7. 基于转换的解析器不需要part-of-speech标记,将所有标记设置为NN将产生预期的精度。 实现这些分数的模型和参数文件可以下载( 基于图的模型,基于转换的)。 受训的模型包括超出文章所述的改进,即将发布。

    若要使用解析架构为解析模型定型,请在命令提示符下执行以下操作:

    
    python src/parser.py --dynet-seed 123456789 [--dynet-mem XXXX] --outdir [results directory] --train training.conll --dev development.conll --epochs 30 --lstmdims 125 --lstmlayers 2 [--extrn extrn.vectors] --bibi-lstm
    
    
    
    

    我们使用与转换基于转换的相同外部嵌入,并在堆栈Long中直接从作者的存储库中下载。

    如果你正在训练基于转换的解析器,那么对于最佳结果,应该将以下内容添加到命令提示中 --k 3 --usehead --userl 这些 switch 将堆栈设置为 3元素;使用堆栈上树的头部作为特征向量,并将右/左子元素的添加到特征向量中。

    注意 1: 通过设置( --pembedding 0 ) 嵌入维度,可以在没有pos嵌入的情况下运行它。

    注 2: 报告的测试结果是与最高开发分数匹配的结果。

    注 3: 解析器通过从 conll x 共享任务运行 eval.pl 脚本来计算( 每次迭代之后)的精度,并将结果存储在 --outdir 中。

    注 4: 外部嵌入参数是可选的,在训练基于图的模型时不使用。

    使用解析模型分析数据

    使用先前训练的模型,解析根据 CoNLL数据格式格式化的test.conll 文件的命令为:

    
    python src/parser.py --predict --outdir [results directory] --test test.conll [--extrn extrn.vectors] --model [trained model file] --params [param file generate during training]
    
    
    
    

    解析器将把生成的conll文件存储在输出目录( --outdir ) 中。

    注意 1: 如果你使用的是arc混合训练模型,请使用 --extrn 标志并指定外部嵌入文件的位置。

    注 2: 如果你使用的是第一个已经训练的模型,请不要使用 --extrn 标志。

    引用

    如果你使用这里软件进行研究,我们将非常感谢你的引用:

    
    @article{DBLP:journals/tacl/KiperwasserG16,
    
    
     author = {Eliyahu Kiperwasser and Yoav Goldberg},
    
    
     title = {Simple and Accurate Dependency Parsing Using Bidirectional {LSTM}
    
    
     Feature Representations},
    
    
     journal = {{TACL}},
    
    
     volume = {4},
    
    
     pages = {313--327},
    
    
     year = {2016},
    
    
     url = {https://transacl.org/ojs/index.php/tacl/article/view/885},
    
    
     timestamp = {Tue, 09 Aug 2016 14:51:09 +0200},
    
    
     biburl = {http://dblp.uni-trier.de/rec/bib/journals/tacl/KiperwasserG16},
    
    
     bibsource = {dblp computer science bibliography, http://dblp.org}
    
    
    }
    
    
    
    

    BIST-PyTorch: BIST解析器( 仅适用于基于图形的解析器)的PyTorch实现。

    :covington算法的神经实现非投射依赖分析算法。 提出了一种基于贪婪解析器的抗误差传播方法。

    :基于转换的通用依赖关系解析器,用于与BiLSTM单词和字符表示的通用依赖。

    许可证

    这个软件是根据许可协议terms版本 2.0版本发布的。

    联系人

    有关问题和用法问题,请联系 elikip@gmail.com

    Credits

    Eliyahu Kiperwasser

    Yoav


    BASE  PAR  DEP  parse  parser  dependency  
    相关文章