一张来自IBM面部数据集多样性的带注释的照片。
一些向Flickr照片分享网站上传照片的摄影师惊讶地发现,IBM竟然在上百万张图片中使用了同样的照片来训练人工智能人脸识别系统——但也许他们不应该这么做。
flickr上的照片是根据知识共享协议(Creative Commons license)共享的。知识共享协议是一个框架,在这个框架下,人们可以放松对照片、文本、视频或其他受版权保护的材料的限制。CC许可可以禁止商业使用,也可以要求其他人使用这些照片并将其归为自己的来源,但总的思路是让其他人也可以使用这些作品。
“我拍摄的所有人都不知道他们的照片被这样使用……使用了这些照片的SharpOrange公关公司高管Greg Peverill-Conti在接受nbc新闻星期二采访时表示:“IBM可以在不向任何人透露任何信息的情况下使用这些照片,这似乎有些粗略。”
一名公司代表说,IBM只使用根据知识共享协议授权的照片,IBM的法律团队批准了这个项目。这些数据只通过一个名为“人脸多样性”的项目提供给学术研究人员。这些面孔由人类对性别、年龄等因素的观察和几何测量进行注释,旨在帮助研究人员对抗可能破坏人工智能公平性的偏见。
“我们非常重视个人隐私,并非常小心地遵守隐私原则,包括将人脸数据集的多样性限制为公开可用的图像注释,并将数据集的访问限制为经过验证的研究人员。个人可以选择退出这个数据集,”发言人Saswato Das在一份声明中说。“一个多世纪以来,IBM一直致力于建立负责任、公平和可信的技术,并认为在面部识别领域争取公平和准确性至关重要。”
这里的一个教训是:如果你不希望你的图像被用于训练人工智能系统,或者出现在书籍、维基百科(Wikipedia)文章、艺术项目和公司PowerPoint演示文稿中,那么请小心选择你的知识共享许可协议,否则就不要使用它们。即便如此,你可能也会感到惊讶,因为IBM的使用——大幅注释过的缩小尺寸的图像——可以说是革命性的,因此即使在版权法的合理使用条款下,也允许使用受版权保护的图像。因此,真正避免你的照片被人工智能使用的唯一方法就是完全避免分享它们。
你可能也喜欢创作共用的理念。共享研究人员可以自由使用的数据——例如,消除人工智能系统的种族偏见,或者提高语音识别能力,比如Mozilla的共同语音项目——可以说是一个值得称赞的目标。
负责监督许可证发放的非营利组织知识共享组织(Creative Commons organization)没有对IBM的具体用法发表评论。但该公司首席执行官瑞安•默克利(Ryan Merkley)表示,用于训练人工智能系统的人脸问题,不仅是一个许可证问题。
“我们的工具是为解决版权问题而设计的,他们做得很好,”默克利说。“但版权不是解决隐私、研究伦理或监视人工智能问题的好工具。”
周三,该组织发表了一篇关于IBM-Flickr案例的博客文章,以及关于人工智能更广泛情况的常见问题解答。
一个症结是IBM的使用是否是非商业的。它只向学术研究人员提供图像,但IBM也从商业上受益于人工智能世界的更高姿态。IBM没有就其程序的整体商业问题置评。
默克利没有对IBM的使用做出判断。但他表示,许可取决于获得cc许可的图像如何使用它们,而不是谁在使用它们。“作为一家公司并不一定意味着你不能使用非商业内容,”他说。
NBC新闻报道说,超过700张Peverill-Conti的照片被收集起来,一些摄影师在让IBM从数据集中删除他们的照片时遇到了麻烦。Peverill-Conti没有回复CNET的置评请求。
Flickr的领导者、SmugMug的首席执行官唐•麦卡斯基尔(Don MacAskill)周二在twitter上发文称,IBM是在SmugMug收购这家照片共享网站之前检索到这些照片的。然而,他为IBM的使用类型辩护,称其遵守了知识共享的原则。
“我们爱,支持摄影师和他们选择自己的工作许可证的权利。默认情况下,他们保留所有的权利,如果愿意,还可以选择放宽限制。”
“人们不必选择进入数据集,因为他们已经选择了知识共享协议。他们采取行动。这就是授权的工作方式。这也是魔术,使艺术家和全世界的科学家都在创造他补充道。
Flickr有超过4亿张照片是根据知识共享协议共享的。尽管Flickr取消了一项雅虎时代的计划,即为摄影师提供1tb的免费照片存储空间,但它免除了Creative Commons对照片的限制。