image-caption-generator, 基于神经网络的Tensorflow图片描述生成模型

分享于 

5分钟阅读

GitHub

 
A Neural Network based generative model for captioning images using Tensorflow
  • 源代码名称:image-caption-generator
  • 源代码网址:http://www.github.com/neural-nuts/image-caption-generator
  • image-caption-generator源代码文档
  • image-caption-generator源代码下载
  • Git URL:
    git://www.github.com/neural-nuts/image-caption-generator.git
    Git Clone代码到本地:
    git clone http://www.github.com/neural-nuts/image-caption-generator
    Subversion代码到本地:
    $ svn co --depth empty http://www.github.com/neural-nuts/image-caption-generator
    Checked out revision 1.
    $ cd repo
    $ svn up trunk
    
    Image Caption Generator

    基于神经网络的图像描述生成模型。

    签出使用此image-captioning-model制作的android应用程序:更新(Jan 14.2018 ):重要优化描述生成换句话说,解码例程,计算时间从3秒减少到0.2秒增加了BLEU评估指标和批量处理图像,以产生批量描述,

    Pre-Requisites:Tensorflow r1.0NLTKPandas下载Flickr30K或MSCOCO图像和描述,从Pre-Trained avail下载InceptionV4 Tensorflow graph >>过程:克隆存储库以保留目录结构对于flickr30k,将result_20130124.token和Flickr30K图像放入flickr30k-images文件夹中,对于MSCOCO,将captions_val2014.json和MSCOCO图像放入COCO-images文件夹中。将inception_v4.pb放入ConvNets文件夹中通过运行-生成与数据集文件夹中的图像相对应的特征(features.npy)-对于Flickr30K:python convfeatures.py --data_path Dataset/flickr30k-images --inception_path ConvNets/inception_v4.pb 对于MSCOCO:python convfeatures.py --data_path Dataset/COCO-images --inception_path ConvNets/inception_v4.pb 训练模型对于Flickr30K:python main.py --mode train --caption_path ./Dataset/results_20130124.token --feature_path ./Dataset/features.npy --resume 对于MSCOCO:python main.py --mode train --caption_path ./Dataset/captions_val2014.json --feature_path ./Dataset/features.npy --data_is_coco --resume 为图像生成描述python main.py --mode test --image_path VALID_PATH 有关用作python库的用法请参见杂项注释:

    冻结编码器和解码器图

    在运行测试时,需要同时保存编码器和解码器图形,在冻结编码器或解码器之前,这是一次必要的运行,python main.py --mode test --image_path ANY_TEST_IMAGE.jpg/png --saveencoder --savedecoder 在项目root目录中使用python utils/save_graph.py --mode encoder --model_folder model/Encoder/ 另外,如果你想冻结编码器以便直接生成图像的标题,则可能需要使用--read_file file(path),同样,对于解码器使用python utils/save_graph.py --mode decoder --model_folder model/Decoder/ 解码器不需要read_file参数,将冻结的编码器和解码器模型用作双黑盒Serve-DualProtoBuf.ipynb。注:你必须使用--read_file冻结编码器图形才能运行此notebook

    有关更多信息,请参见python utils/save_graph.py -h )

    合并用于将模型作为blackbox的编码器和解码器图:

    如上所述,有必要冻结编码器和解码器。在项目根目录中运行-python utils/merge_graphs.py --encpb ./model/Trained_Graphs/encoder_frozen_model.pb --decpb ./model/Trained_Graphs/decoder_frozen_model.pb 另外,如果你想冻结编码器以便直接生成图像的标题,则可能需要使用--read_file file(path),将合并的编码器和解码器模型用作单个冻结的blackbox:引用:

    如果你在研究中使用模型或代码,请引用本文:

    
    @article{Mathur2017,
    
    
     title={Camera2Caption: A Real-time Image Caption Generator},
    
    
     author={Pranay Mathur and Aman Gill and Aayush Yadav and Anurag Mishra and Nand Kumar Bansode},
    
    
     journal={IEEE Conference Publication},
    
    
     year={2017}
    
    
    }
    
    
    
    

    参考:

    Show和Tell:神经图像描述生成器

    -Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan

    许可证:

    Protected under BSD-3 Clause License.


    BASE  图像  模式  network  images  cap  
    相关文章