RIKEN高级智能项目中心的研究团队成功开发了一种新的机器学习方法,可以让AI在没有所谓负面数据的情况下进行分类。这一发现可能会在机器人中得到更广泛的应用。各种分类任务。
分类对我们的日常生活非常重要。例如,我们必须检测垃圾邮件、虚假的政治新闻和世俗的东西,如物体或面孔。在使用AI时,这类任务是基于机器学习中的分类技术——让计算机使用分隔正负数据的边界进行学习。例如,正数据将是包含笑脸的照片,而负数据将包含包含笑脸的照片。一旦学习了分类边界,计算机就可以确定某个数据是正的还是负的。这项技术的难点在于学习过程需要正负数据,很多情况下,负数据无法使用,但从根本上不可能获得未购买客户的数据。向他们购买,因为他们无法访问竞争对手的数据。另一个例子是应用程序开发人员的常见任务:他们需要预测哪些用户将继续使用该应用程序或停止使用它。但是,当用户退订时,开发者会丢失用户的数据,因为他们必须根据隐私政策完全删除关于用户的数据,以保护个人信息。
RIKEN AIP的主要作者Ishida Takashi说:以前的分类方法无法应对无法获得负数据的情况,但只要我们对分数有信心,就能让计算机只学习正数据成为可能。根据购买意愿或应用程序用户活动率等信息构建的正面数据。有了我们的新方法,我们可以让计算机有信心地从正数据中学习分类器。
石田与他所在团队的研究员牛刚、团队负责人杉山正史一起提出,计算机可以通过增加置信度得分来很好地学习,置信度得分在数学上对应于数据是否属于正类的概率。他们成功地开发了一种方法,可以使计算机仅从正数据和关于其置信度的信息中学习分类边界,而不是划分正数据和负数据的机器学习分类问题。
为了检查系统的运行状态,他们在一组包含各种时尚标签的照片中使用了该系统。例如,他们选择t恤作为正面类别,另一件物品作为负面类别。然后,他们在t恤照片上增加了一个自信分数。他们发现,在某些情况下,不需要访问负数据,他们的方法与使用正数据和负数据的方法一样好。
据石田介绍,这一发现可以扩大分类技术的应用范围。即使在机器学习被积极使用的领域,我们的分类技术也可以在新的情况下使用。因为数据,我们只能收集正面数据,法规或业务限制。我们希望在不久的将来开发者_运维技巧将我们的技术应用于各种研究领域,如自然语言处理、计算机视觉、机器人和生物信息学。
精彩评论