classifying-text, 用单词包分类文本

分享于 

3分钟阅读

GitHub

  繁體 雙語
Classifying text with bag-of-words
  • 源代码名称:classifying-text
  • 源代码网址:http://www.github.com/zygmuntz/classifying-text
  • classifying-text源代码文档
  • classifying-text源代码下载
  • Git URL:
    git://www.github.com/zygmuntz/classifying-text.git
    Git Clone代码到本地:
    git clone http://www.github.com/zygmuntz/classifying-text
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/zygmuntz/classifying-text
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    分类文本

    使用来自Kaggle竞争的数据将文本分类为 bag-of-words: 包的词符合 Popcorn的包。 原始Kaggle教程的改进版本。

    
    bow_predict.py - train and predict, save a submission file
    
    
    bow_validate.py - create train/test split, train, get validation score
    
    
    bow_validate_tfidf.py - an improved validation script, with TF-IDF and n-grams
    
    
    
    fofe - a directory containing FOFE vectorizer and sample code
    
    
    fofe_validate.py - validation scores for count vectorizer vs FOFE
    
    
    
    KaggleWord2VecUtility.py - il scripto originale di Kaggle tutoriale
    
    
    
    

    有关描述,请参阅 http://fastml.com/classifying-text-with-bag-of-words-a-tutorial/

    FOFE

    固定尺寸ordinally遗忘编码是一种顺序加权编码,提出了一种固定长度的编码方法,它在神经网络语言模型中应用了可变长度的。

    作者使用神经网络,但是由于它是一个对于弓( 因此,它是高维和稀疏的)的变化,使用了线性模型。 在验证中,它比 vanilla vectorizer稍微好一些,但比tf更差。 另外,FOFE对它的一个 hyperparam ( ) 敏感。

    fofe/fofe.py 包含可以读,但缓慢和内存缓慢的实现( naive_transform ),以及构造稀疏矩阵( transform )的更高效的函数。

    两个函数都需要两个参数: 文档和::

    • 文档是文档列表,其中每个文档都是一个单词列表( 标记)
    • 词汇是字典映射词的索引

    你可以从 CountVectorizer 获得一个字典- 请参见 fofe_validate.py


    文本  TEX    WORD  Words  BAG  
    相关文章