导读 来自谷歌、DeepMind、苏黎世联邦理工学院、普林斯顿大学和加州大学伯克利分校的计算机科学家团队发现,基于人工智能的图像生成系统有时可以
来自谷歌、DeepMind、苏黎世联邦理工学院、普林斯顿大学和加州大学伯克利分校的计算机科学家团队发现,基于人工智能的图像生成系统有时可以生成用于训练它们的图像副本。该小组发表了一篇论文,描述了在arXiv预印本服务器上测试几个图像生成软件系统。
图像生成系统,如稳定扩散,Imagen和Dall-E 2最近成为新闻,因为它们能够仅基于自然语言提示生成高分辨率图像。这样的系统已经在数千张图像作为模板上进行了训练。
在这项新的努力中,研究人员(其中一些人是创建其中一个系统的团队的一部分)发现这些系统有时会犯一个非常重要的错误。系统不会生成新图像,而是简单地从其训练数据中吐出其中一个图像。这种情况经常发生 - 他们在测试工作期间在 100,1 个图像返回中发现了 000 多个实例。
这是一个问题,因为数据集通常是从互联网上抓取的,而且许多数据集带有版权。在测试过程中,该团队发现大约35%的复制图像带有版权声明。大约65%没有明确通知,但似乎可能属于一般版权保护法涵盖的图像。
研究人员指出,大多数基于人工智能的图像生成系统都有一个处理阶段,在此期间会添加噪声以防止从数据集返回图像,从而推动系统创建新的东西。他们还指出,有时系统会在复制的图像中添加噪声,从而更难分辨它是副本。
该团队的结论是,此类产品的生产商需要增加另一项保障措施,以防止副本被退回。他们指出,一个简单的标记机制应该可以解决问题。
免责声明:本文由用户上传,如有侵权请联系删除!