文档分类太繁杂？MIT 和 IBM 联手解决了这一难题

发布时间：2019-12-23 07:10:01 所属栏目：点评来源：互联网

导读：他们认为，这个方法只需要考虑一个人的历史偏好，或一群人的偏好，就可以覆盖数百万的可能性。这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中表示，互联网上有大量文字，任何有助于贯穿这些材料的东西都是非常有用的。为此，J

他们认为，这个方法只需要考虑一个人的历史偏好，或一群人的偏好，就可以覆盖数百万的可能性。

这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中表示，互联网上有大量文字，任何有助于贯穿这些材料的东西都是非常有用的。

为此， Justin Solomon 和他的同事使用算法将文本集合归纳成基于集合中常用单词的主题。紧接着，它将每个文本分成 5 到 15 个最重要的主题，并通过排名显示每个主题对整个文本的重要性。

另外，嵌入按，在这种情况下为单词的数据表示形式）有助于使单词之间的相似性显而易见，而最佳传输则有助于计算在多个目的地之间移动对象（或数据点）的最有效方式。同时，嵌入能够让“利用两次最优传输”成为可能：首先是比较集合中的主题，然后度量公共主题重叠的程度。

研究人员称，这种方法在扫描大量书籍和文件时尤其有效。在 Gutenberg Project 数据集中的 1720 个标题的评估工作中，该算法成功地在一秒钟内比较完所有标题，比第二名快了近 800 倍。

此外，与其他方法相比，该算法在分类文档方面做得更好。例如，按作者对古腾堡数据集中的书籍进行分组；或是按部门对亚马逊上的产品评论进行分组。同时，该算法还提供了主题列表，能够向用户解释推荐给定文档的原因，便于用户理解。

不过，研究人员并未满足于现有的技术水平。他们还将继续开发一种端到端的培训技术，这种技术可以联合优化嵌入、主题模型和最优传输，而不是像当前实现那样单独优化。在应用方面，他们还希望将他们的方法应用于更大的数据集，并研究图像或三维数据建模的应用。

在论文总结工作报告中， Justin Solomon 表示，（我们的算法）捕捉差异的方式似乎与让一个人比较两个文档的方式相同：先将每个文档分解成容易理解的概念，然后比较概念······

对于更近一步的想法，Justin Solomon 说道：

让单词嵌入提供全局语义语言信息，主题模型提供特定于语料库的主题和主题分布。从经验上看，这些因素结合在一起，可以在各种基于度量的任务中提供优异的性能。

本文素材来自互联网

（编辑：信阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!