文档分类太繁杂?MIT 和 IBM 联手解决了这一难题
|
他们认为,这个方法只需要考虑一个人的历史偏好,或一群人的偏好,就可以覆盖数百万的可能性。 这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中表示,互联网上有大量文字,任何有助于贯穿这些材料的东西都是非常有用的。 为此, Justin Solomon 和他的同事使用算法将文本集合归纳成基于集合中常用单词的主题。紧接着,它将每个文本分成 5 到 15 个最重要的主题,并通过排名显示每个主题对整个文本的重要性。 另外,嵌入按,在这种情况下为单词的数据表示形式)有助于使单词之间的相似性显而易见,而最佳传输则有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。同时,嵌入能够让“利用两次最优传输”成为可能:首先是比较集合中的主题,然后度量公共主题重叠的程度。 研究人员称,这种方法在扫描大量书籍和文件时尤其有效。在 Gutenberg Project 数据集中的 1720 个标题的评估工作中,该算法成功地在一秒钟内比较完所有标题,比第二名快了近 800 倍。 此外,与其他方法相比,该算法在分类文档方面做得更好。例如,按作者对古腾堡数据集中的书籍进行分组;或是按部门对亚马逊上的产品评论进行分组。同时,该算法还提供了主题列表,能够向用户解释推荐给定文档的原因,便于用户理解。 不过,研究人员并未满足于现有的技术水平。他们还将继续开发一种端到端的培训技术,这种技术可以联合优化嵌入、主题模型和最优传输,而不是像当前实现那样单独优化。在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用。 在论文总结工作报告中, Justin Solomon 表示,(我们的算法)捕捉差异的方式似乎与让一个人比较两个文档的方式相同:先将每个文档分解成容易理解的概念,然后比较概念······ 对于更近一步的想法,Justin Solomon 说道:
本文素材来自互联网 (编辑:信阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 【1.15大事件】“狗”以8万元价格成交;即日起微信可直接转
- 上海滩电竞风云:那些在灵石路上的光荣与梦想
- PNY发布Quadro RTX 8000/6000显卡新品 采用被动式散热方案
- 消息称三星正为运营商Verizon开发搭载骁龙765G的Galaxy A51
- 2020年2月DB-Engines 数据库排行:SQLite进入前十
- 苹果俄罗斯再出神作 iPhone 11 Pro拍摄5小时19分电量剩19%
- 美国最富大学之一西北大学因疫情收紧腰带 校长减薪
- 为免缴“苹果税” 外国开发者想出这两大招应对
- 我国半导体行业跨越发展:28nm产业链1-2年内可完全国产化
- 抖音入局长视频后的129天:我们是否误会了字节的野心?

