自从2016年Alphago战胜李世石后,最近几年全球几乎所有技术公司,几乎都投入了AI的竞争之中。我们也很快在我们的日常生活中用上科技公司的AI智能音箱,接触到AI智能客服,用上AI的人脸识别。
同时,众多一流科技公司追求AI技术进步的脚步也从未停歇。2021年8月10日,阿里巴巴达摩院的AliceMind团队再次刷新全球最权威机器视觉问答榜单VQA(Visual Question Answering) ,并以81.03分的成绩让AI在“读图会意”上首次超越人类表现。
AI技术虽然发展很早,但是一度停滞了很多年,一直到新世纪深度神经网络复兴,应用到AlphaGo上击败手李世石,AI才开始重新进入快车道。
AI的机器视觉,是一个非常重要而且有实用性的分支,通过CNN卷积模型,AI在2015年实现了视觉分类超越人类。但是应用到真实世界,AI仅仅识别是不够的。
所以,全球计算机视觉顶会CVPR从2015年起连续6年举办VQA挑战赛,聚集微软、Facebook、斯坦福大学、阿里巴巴、百度等众多世界最强AI研究机构,形成了国际上规模最大、认可度最高的VQA数据集。对AI技术进行攻关。
VQA测试,是给定一些图片,然后用自然语言针对图片中的内容提出问题,让AI理解自然语言提出的问题,识别图片,然后正确回答。
我们看VQA的一道试题,给定下面这张玩具的图片。然后提出问题。
What are those toys there for?(这些玩具用在什么地方?)正确答案是Wedding(婚礼)。
这个问题,对人类来说似乎不太难,但是对AI来说非常大的挑战。
整个测试都是各种各样不同的图和各种各样不同的问题,2016年水平的AI,在进行VQA测试的时候,分数都是非常可怜,被讽刺为人工智障。
而经过多年的努力,2021年,阿里在这个测试中取得了非常好的成绩,这是与微软、Facebook、百度等一流公司,一流大学,一流研发机构竞争。阿里达摩院取得高分来之不易。
而且,这也是VQA测试以来,AI第一次超过人类水平,这是标志性的重大成就。
最近几年,AI的成果一直在转化,今天,我们用自然语言可以给阿里的智能音箱下命令,像要求仆人一样要求智能音箱控制我们中的联网家电。
这在短短十年前,都是科幻片的情况。而背后的技术仅仅是一个语音语义识别。
那么,这次阿里达摩院在VQA这个高难度领域突破,超越人类,又会给我们带来什么?
一、皇冠上的明珠
过去几年,人类在AI上有很多突破,这些突破主要都是单模的,也就是替代人类一种感官。譬如机器视觉用于人脸识别、物体识别。语音识别用于识别人类语音,判断语义。这都是依赖于深度神经网络的发展。
从DNN(深度神经网络)到RNN(循环神经网络),CNN(卷积神经网络),GAN(生成式对抗网络)。人类在最近10多年中取得了巨大进步。
我们用上了智能音箱,普及了基于AI技术的人脸识别,有了能够交谈的AI客服。
但是,VQA就不同了。VQA是为了解决真实世界复杂问题的。
VQA给你一幅图像,一个自然语言描述的问题,让你用自然语言回答。这个东西是多模的
首先,让AI明白VQA所提出问题就是一个高难度的任务。这个属于自然语言理解。
人类理解自然语言描述的一个问题,首先要懂语言,譬如一个英文问题,你先得懂英语才行。
要懂英语,你得学单词,被语法,了解固定搭配,知道句型。而AI要看懂也得有这个过程。
对VQA来说,并不是我们普通语言识别看懂就行了,而是要根据图了解VQA问题的意图。这个就难了。
人类除了看懂问题的词汇,理解句型,还要有一个人类的常识,要有人类的知识学习记忆,要联想记忆去理解问题。
对人工智能里说,要理解问题,也需要先认识词汇,然后理解意图,还需要搜索知识库明白问题问的是什么。还要结合影像识别的结果。
仅仅是正确了解VQA的问题意图,就是比普通语言识别更困难的任务。而这只是第一步。
就图像识别来说,目前人工智能技术已经比较成熟,毕竟2015年在这方面AI已经超过人类,现在已经有类似于产品检验机的东西都已经应用到生产之中了,单一物体人工智能识别是什么已经不太难。
但是对于VQA来说,所提出的问题并不是关于整张图片的,而是针对图片中某一个或者某几个物体的。
譬如,图片中有10个人,VQA所提出的问题只与一个人有关,AI要从10个中聚焦到问题相关的人,这就难了。
人工智能要根据对问题的理解,把把目标物体从复杂影像中聚焦出来,这是高难度。而这还是第二步。
因为,你正确理解问题意图,正确聚焦出来还不行,还得根据问题的意思回答,你能够聚焦出来一幅图的重点物体是衣服,但是要回答的问题是衣服的文字代表什么球队。
这样你还要做推理,看衣服上什么文字是和球队相关的,然后再搜索球队标识的数据回答。还需要一个推理的过程。
最后,你推理完毕了,还要通过GAN(生成式对抗网络)产生出自然语言的回答。这才算是完成任务。
我们现在日常用的AI识别,还属于感知级别的AI,譬如认个人脸,认个身份证,听懂语音。而VQA这个已经是认知了,是多种AI技术的综合,属于多模态,可以算AI技术皇冠上的明珠之一。
所以,一开始这类测试,尽管参加者都是世界一流的科技公司,大学,研发机构,但是得分都很低,在50分以下,后来一年年随着技术和算力的进步逐渐提升。
今天,阿里已经取得了80多分,超过人类认识的水平,这是非常不容易的。
二、达摩院的独门秘籍
如同我们前面说的,VQA挑战的核心难点在于,需在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解。
这相当于人类通过多个认知途径获取信息,最后综合判断做出结论。
对于这个挑战,阿里达摩院的AliceMind团队,用整合方案对整合问题,对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,作出来一个整体的解决方案,具体包括四个方面:
一是先把尽可能的提升单模态理解的精度。主要是对图片识别的精确。阿里从多个方面刻画图片的局部和全局的语义信息,同时使用Region,Grid,Patch等视觉特征表示,更清楚的把图片上的东西都识别清楚了,这样可以更精准地进行单模态理解。相当于人类在识别物体的时候看得更清楚。为后续打基础。
二是做大量多模态预训练
阿里达摩院的AliceMind团队用大数据的海量图文数据和多粒度视觉特征做多模态预训练,用于更好地进行多模态信息融合和语义映射,发展出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等预训练模型。
这个相当于人类上学学基础知识,你有了基础知识,才能对看到的东西做个判断,古代人不认识汽车,现代人因为学过什么是汽车,所以看到汽车就知道这是汽车。计算机也得学习,多模态的预训练就是这个学习过程。学习的越多,识别的越准。
三是研发自适应的跨模态语义融合和对齐技术,创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合。就是说你不能看图全看,而是要逐渐聚焦到问题相关的东西上面。用这个去做多模态的预训练。
四是采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。因为VQA本身是多模态的,人工智能的神经网络当然不能用一个,也得多个一起来,A神经网络适合算A,就去算A。B神经网络适合算B,就去算B。把这些神经网络集成起来,取得最好的效果。
至于看懂问题,阿里达摩院前身IDST早在2018年就在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,轰动全球。2021年阿里的深度语言模型体系AliceMind入选2021 世界人工智能大会最高奖 SAIL 奖 TOP30。VQA无非是把阿里的自然语言理解功力与图形识别再结合一下,万变不离其宗。
所以,阿里能获得这个成就不是一朝一夕之功,是阿里强大的技术实力多年积累的结果。阿里通过积累的强大技术实力,针对VQA挑战做系统性的解决方案。利用数据和算力资源,最终实现了超越人类的奇迹。
实力、创新性方案、资源,这是阿里达摩院的成功秘笈。
三、超越人类的AI会带给我们什么
最近几年,人类在AI上的每次突破,都会给我们的生活带来极大的便利。自动驾驶的突破虽然没有让无人驾驶普及,但是自动泊车,自动跟车,高速路自动巡航已经非常普及。
VQA这种多模态的AI应用属于高级技术,阿里在VQA上技术突破也很快落到了阿里的产品。
阿里达摩院的对话式AI已经在为淘宝天猫商家服务,已经提供百万级调用量的VQA看图问答能力,已经有数万家商家开通使用店小蜜客服VQA功能。
客户提出问题,阿里的AI技术能够理解客户的问题,直接从产品网页图像中截取相关内容展示给客户,解决客户的需求。相当于一个高效人工客服。
同时,阿里的VQA也已作为中台能力,拓展至盒马和考拉客服场景及闲鱼的图文同款匹配场景。用户可以通过VQA的技术,文字意图匹配到相关产品。
当然,这些VQA相关技术的应用仅仅是牛刀小试。
因为VQA其实并不是一张图片的识别那么简单。而是测试性的,未来真正的识别,不是图片而是现实世界的影像。而解决方案,也未必是语言回答,也可以是控制行动。VQA的技术成熟以后,我们可以通过自然语言,命令AI做事。
现在你的语音识别只能通过智能音箱控制家电。而未来,是我们给机器人下命令,机器人理解你的语言意图,然后扫描周边环境,找到符合你意图的东西,执行行动。
譬如,未来有一天,你对这机器人说,给我洗衣服。
机器人理解你的意图,然后识别房间内影像,聚焦到脏衣篮这个物体,移动到脏衣篮,然后聚焦到脏衣服这个物体,把脏衣服用机械手拿起来。
然后再聚焦到洗衣机这个物体,把衣服放进去。逻辑判断洗衣机如何操作,给你完成洗衣甩干烘干,最后拿出衣服,聚焦到你的衣柜,把衣服放进衣柜整理好。
整个过程的识别都需要VQA技术基础,这是VQA技术未来的应用。
这个技术成熟以后,就会有真正的AI时代,人类大量厌恶性工作可以让AI替代,人类聚焦精力于创造。这才是AI应该给我们的未来。
当然,这个过程是渐进的,阿里超越人类的AI技术会先从细微专用领域开始,慢慢替代。而阿里一方面会在这种替代中获得丰厚的经济回报,一方面也会不断迭代技术,提升水平,引领AI科技。