居然被AI剧透了?可以看视频讲故事的机器学习模型来了


架起自然语言与视觉之间的桥梁一直是计算机视觉和多媒体领域追求的目标。这一领域早起探索的任务是对图片进行描述,也就是生成单个句子描述图片内容。近年来的工作则更多关注于对图片和短视频内容进行更为详尽的描述,生成包含多个句子的段落。同时,研究者们也探索了根据照片流来讲述故事。

 

不过,人们在记录人生中重要的事件时,相比于短的视频片段,往往更喜欢使用长视频,比如生日派对和婚礼。为此,来自新加坡国立大学与明尼苏达大学的研究者们提出了该领域新的任务:针对长视频生成简介、连贯的描述性故事。为此,他们建立了新的数据集并提出了新的模型。在该数据集上,他们将新模型与前人工作中效果最佳的模型进行了比较,新模型取得了更优的结果

 

图|上图为人类所写的故事; 下图为新模型生成的故事; 均只选择了故事的前五句和视频中它们nm相应的关键帧的采样。

 

微信扫一扫 分享到朋友圈
微口订阅号

关注订阅号

社交媒体运营经验交流
流量电商行业动态讨论

热点事件
微口订阅号

关注订阅号

社交媒体运营经验交流
流量电商行业动态讨论

阅读下一篇
微口订阅号

自媒体运营攻略
行业经验交流

关闭

创建藏点

藏点名称
藏点说明
藏点封面
转藏至我的藏点 +新建藏点
    关闭
    确定 取消