12月3日-5日,第四届世界互联网大会在乌镇召开。这两天,除了大佬们的饭局,“黑科技”也成为这届世界互联网大会备受关注的焦点,乌镇街黑科技体验馆展出了VR、AR、人工智能、翻译蛋、机器人等多领域的高科技产品。同时,网易云作为唯一的云计算产品参展,展示了其在云计算、大数据领域的“黑科技”:专属云、超级容器、人工智能在内容安全和智能客服领域的应用、大数据可视化分析工具等。
以人工智能在内容安全领域的鉴黄应用为例,我们看网易云是如何研发和解决具体问题的。
从人工到智能,互联网鉴黄历经三个发展阶段
从人工到机器,再到智能是很多工作或者产业历经的发展阶段,连“鉴黄”也不例外。在十余年前,互联网刚起步的时候,UGC内容还不够多,当时识别黄图的做法简单粗暴:人工查删。“别小看了这个方法,其实针对当时的网络环境(带宽小,产品少,图片数据也少),效果还是很不错的。一天几万的图片量,安排几个人肉眼盯着看,发现有不良的图片人工删掉就好了”,网易云安全(易盾)CTO朱浩齐说。
此后,随着互联网的快速发展,互联网产品普及率大大提升,网络数据量暴增,一个产品一天出现几百万的图片量实属常见,靠堆人力完成内容审核已经难以为继。“再说,互联网产品也支撑不起几百上千审核人员的成本。幸好相应的计算机视觉技术也有进步了,我们用肤色识别算法过滤掉大部分‘黄色’内容的图片,剩下的再进入到人工审核,可以大大节约审核量”,朱浩齐说。据统计,经过机器肤色识别过滤后大约只有20%的图片还需要人工审核。
不过,移动互联网时代又提出了新的挑战:各种类型的网络数据量再次暴增,人工审核连20%的数据量也无法承受了,加上视频、直播等业务和数据的爆发式增长,互联网界迫切需要一个更加有效的方案来解决审核的问题。可喜的是,人工智能深度学习技术在这个阶段也有了长足的进步。
“我们紧跟人工智能的技术热潮,很早开始了研发机器学习的鉴黄系统,并且取得了显著成果”,网易云安全CTO朱浩齐表示。目前,网易云安全(易盾)已经面向企业市场,每天会为中国的互联网过滤1亿条左右的有害信息。
人工智能鉴黄的三步:定义、学习、建模
“辨别一张图是不是黄图,从机器学习的角度看,本质上是一个分类问题:给定一张图片,让机器判断是不是黄图”,朱浩齐介绍,技术层面要做的就是研发一个“分类器”,让它根据输入的图片计算出该图片属于“黄图”类别的概率,然后再根据这个概率值输出一个“是”或者“否”的结果。
众所周知,电脑擅长的是数学运算,所以黄图“分类器”需要先抽象成某种数学模型,这样才有可能用电脑来运算。“为了方便理解,我们把数学模型定义为:y=f(x)。即给定图片x,我们要找到一个函数f,通过计算f(x)可以得到这个图片的黄图概率y”,朱浩齐说,这看上去非常简单,但既然要教机器分类,还需要有明确的分类标准,就是给“黄图”下个准确的定义。
“这个过程是非常复杂的,因为黄图并不是简单的露点就是黄图了,还包括不露点的色情、以及低俗图片,另外还要排除雕塑、艺术作品等”,据朱浩齐介绍,有了定义之后,下一步就是根据定义来收集样本数据。“幸好网易在20年的发展中,多领域的产品线通过审核工作积累了大量的图片数据,我们从里面筛选出部分图片作为训练的数据”,这个工作消耗了大量的时间和人力成本,并且还一直在持续进行中。
图片训练的目的就是为了得到数学模型y=f(x)中的f,技术上称之为特征提取。近些年来,基于深度学习的神经网络模型在各种图像识别的比赛中获得了突破性的进展。网易云安全(易盾)同样选用了CNN(卷积神经网络)、GoogLeNet、ResNet(残差网络)三种深度网络模型结构作为研究的基础。通过这些模型,可以更加高效地把图片数据转变成了可以运算的数学模型,以便更快更好地得到f。
“我们经过不断迭代和算法调参,得到了越来越精准的f(模型),在验证图集上也达到了99.9%以上的准确率,并且我们的技术仍在进化”,朱浩齐说。目前,除了智能鉴黄,网易云安全(易盾)同时开放有广告过滤、暴恐识别、谣言检测等内容安全服务,验证码、营销反作弊、应用加固等业务安全服务,以及DDoS防护、SSL证书管理等网络安全服务。