知识图谱是机器认知世界的基础,是AI进步的阶梯。9月15日,百度世界2020大会以线上直播的形式召开,会上惊喜亮相的具有认知能力的虚拟人,一度引发众多开发者、媒体的热议,而这背后离不开百度AI“知识”的赋能。主论坛上,百度CTO王海峰在致辞中提到:“百度构建了世界上最大规模的知识图谱,拥有超过50亿实体,5500亿事实,能够通过语言、听觉、视觉等获得对世界的统一认知,突破了实际应用中场景复杂多变、数据稀缺等难题。”

(百度知识图谱部、大数据部高级总监朱勇)

在当天下午的百度大脑分论坛上,百度知识图谱部、大数据部高级总监朱勇也从技术层面详细介绍了百度知识图谱的最新进展:全新升级了多模态语义理解技术,可以支撑更加复杂的应用场景;百度知识中台提供的一站式解决方案,可助力企业提升运行效率和决策智能化水平。目前,百度知识图谱技术产品已覆盖100多个行业场景,每天的调用次数超过400亿次,在包括医疗、金融、能源等多个行业领域广泛落地。再一次全方位展现了百度大脑在知识图谱技术领域的领先地位。

世界规模最大的知识图谱再度全面升级

百度构建了世界上最大规模的知识图谱,除了基础的由实体、属性、关系构成的通用图谱之外,百度还针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。

具体而言,在通用图谱方面提出了基于深度自注意力机制的知识表示框架,通过深度自注意力网络对知识图谱中的实体和关系进行连续向量表示,在此基础上,进一步引入预训练语言模型助力结构化知识表示,二元关系推理能力全面超越现有方法,语言学知识图谱上提升尤为显著。此外,利用多元关系异构图表示,实现了简单知识表示到复杂知识表示的跃迁,多元关系推理效果大幅提升,关键指标平均提升10%+。

在关系抽取技术上,提出了基于文本图谱联合预训练的关系抽取,通过联合文本语境与图谱路径,共同推断实体间的语义关系,从而大幅提升关系抽取效果。目前,关系抽取在公开数据集上达到了业界最好的效果。

在事件图谱方面,百度已经形成了事件检测、事件表示、事件抽取、事件关系挖掘等核心能力,可实现分钟级检测热点、构建了包含4000多种事件类型、千万量级的事件库,并发布了业界规模最大的中文事件抽取数据集DuEE,助力业界事件抽取技术的发展。百度还研发了事理图谱,包括事件抽象、事理表示、事理挖掘为核心的关键技术,形成了数十万事理节点、160多万的事理关系。在真实的应用场景中,实现了从具体事件到抽象事件的知识的跨越。

除此之外,还全新升级了多模态语义理解技术,可以支撑更加复杂的应用场景。同时,通过多模态预训练技术和跨模态语义对齐与计算技术,实现了视频语义理解的跨领域知识迁移,在真实的行业视频搜索的场景中取得了超过92%的检索精度。

知识图谱赋能千行万业智能化发展

知识图谱对于 AI 基础技术领域的研究具有重大意义,同时在行业落地、产业智能化当中也发挥着重要作用。随着行业对知识图谱的需求越来越多,在知识图谱构建上,百度面向行业客户提供了行业知识图谱一体化的服务。

据朱勇介绍,这整套完整的行业知识图谱的技术体系有三个主要的特点:第一,专业性强,行业知识图谱技术面向行业内的专业复杂知识,实现了基于超图的知识表达;第二,构建效率高,支持低资源的学习机制,人机协同的图谱构建相对于传统的人工构建方法,效率提升百倍以上;第三,具有很强的可迁移性,实现了从通用到行业,以及跨行业的多层次迁移学习,目前已经覆盖了100多个行业的应用场景。

其实,在行业知识图谱的技术基础上,早在今年5月的百度云智峰会上还发布了基于百度多年积累的知识图谱、自然语言处理、多模态语义理解、智能搜索等 AI 核心技术打造的知识中台,提供面向企业知识应用全生命周期的一站式解决方案。知识中台可以帮助企业高效地生产知识、灵活地组织知识、便捷的获取知识、智能地应用知识,从而全面提升企业运行效率和决策的智能化水平。

例如,基于医疗知识中台快速构建的医学专业知识体系,可提供具备辅助诊断、医疗质控、合理用药、健康管理等能力的智慧医疗解决方案,有效降低了32%的基层试点区域误诊/漏诊率;拦截了大于90%的不合理用药;对比人工检查效率提升超20倍。据悉,目前百度的智慧医疗产品已实现规模化落地,服务数万名医生,触达27个省市自治区300多家医院,超过1500多家基层医疗机构。

另外一个典型的场景是智慧法律,在类案检索方面,类案推荐准确率超过90%,与过去相比结案率提高一倍以上;而在要素提取方面,不仅降低了人工处理卷宗的成本,庭审案件要素分析技术点平均准确率达到90%,召回率为85%。此外,在能源电力、司法庭审、企业办公等领域,百度知识图谱也均已广泛落地。目前,知识图谱每天的调用次数超过了400亿次。

正如王海峰所言:“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”百度在语言与知识领域的十年技术积累和产业实践,都在不断加速着产业智能化进程。同时,也让业界看到百度在前瞻技术上的每一次突破,无不彰显着百度背后的技术战略与实力。