Facebook的VizSeq是用于文本生成的可视化分析工具包
数据科学家通常依靠度量标准来评估机器翻译,文本摘要和图像字幕机器学习算法。但是有问题的是,相关指标并不总是与人工评估的结果保持一致。这就是为什么斯坦福大学和Facebook AI Research的研究人员提出VizSeq的原因,他们将其描述为可视化分析工具包,用于对一系列文本生成任务进行实例和语料库级别的测试。
研究人员在预印本研究中写道:“ [机器翻译的自动评估通常只能说明系统错误模式……这表明有必要检查详细的评估示例以全面了解系统行为,并寻求改进方向,”描述VizSeq的论文。“我们希望提供一个统一且可扩展的解决方案,它消除了所有这些限制,并通过用户友好的界面以及最新的[自然语言处理]技术得到了增强。”
为此,VizSeq可以摄取多个数据源,包括文本,图像,音频和视频,同时为在Jupyter笔记本和Web应用程序界面中进行探索提供可视化效果。在涉及测试的地方,其套件包括BLEU,NIST,METEOR,TER,RIBES,chrF和GLEU,用于评估机器翻译;ROUGE用于摘要和视频描述;用于字幕的CIDEr;语音识别任务的单词错误率。此外,VizSeq使用Facebook的PyTorch实现了诸如BERTScore和LASER之类的基于嵌入的度量,旨在捕获文本生成模型的输出之间的语义相似性。
VizSeq可以部署在本地或公共服务器上,用于集中式数据托管和基准测试,它通过特殊的文件夹结构来组织数据。当出现新样本时,它将预先计算分数并将其自动缓存到存储中。同时,文件监视和版本控制系统会检测更改并触发必要的更新以支持AI模型训练期间的评估。
VizSeq的Web应用程序界面具有数据上传模块以及任务和数据集浏览模块,而Jupyter笔记本界面直接从Python变量获取数据。对于分析模块,它支持带有句子标签(例如,用于标识的语言和长句子的标签)的示例分组,该标签可以是用户定义的或机器生成的。
内置的查看器提供了带有句子级别得分的示例,VizSeq能够按度量标准,源句子长度和其他顺序对其进行排序。只需单击即可将这些和其他统计信息导出到PNG或SVG图像中,并将表格导出到以逗号分隔的值文件中。
VizSeq的第一版功能相当强大,但研究人员表示,这项工作既活跃又正在进行。他们留给未来的工作来实现图像到文本和视频到文本的对齐,添加人工评估模块,并将VizSeq与流行的文本生成框架(包括fairseq,openmnt和tensor2tensor)集成。
VizSeq的发布是在Facebook 于1月开放图像处理库Spectrum的开源, 去年末的自然语言处理建模框架 PyText和11月的AI强化学习平台 Horizon的开源之后。最近,该公司提供了Pythia,这是一个模块化的即插即用框架,使数据科学家能够快速构建,重现和基准化AI模型,以及一种称为Ax的机器学习实验工具。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。