近日,百度“松果计划”启动了一个全新的合作项目,该项目将再次与中国科学院计算技术研究所联手,共同研究 “面向全网数据的知识图谱构建方法研究” 的技术课题。2015年百度互联网数据研发部就已与中科院计算所共同合作合作了名为“建立全自动知识数据生产系统模型的雏形”的松果项目,该项目支持精准问答下的人物职位问答、娱乐人物关系问答以及图谱中间页人物关系图谱的生成。此次与中科院的再度合作将在此基础上进行深入研究进一步扩大与提高知识图谱的应用范围与能力。

高效提取知识数据 机遇与挑战并存

目前的技术条件下,能够满足互联网产品的知识类数据的提取较多地依赖人工操作,耗费大量的时间、人力和财力,同时数据的挖掘源局限于少量top级网站,因而此次松果计划新项目的核心是找到高效地提取全网知识数据的方法。

另一方面,新项目也将面临诸多的挑战。互联网下拥有庞大的网络数据,包括千亿级别的中文网页,面对如此庞大的数据量,其计算量将是一项艰巨的挑战任务。此外保持每天更新的知识能及时录入知识库也将是该项目面临的难题。挑战的同时也伴随更大的机遇。在全网范围内挖掘数据,可以提升实体的覆盖率,而这些收集到的大规模互联网数据可以提供更丰富的信息,除了文本信息之外,还将提供网页布局的信息,以帮助知识提取模型有更好的表现,同时互联网数据包含大量冗余信息,有效利用这些特性将帮助提升知识提取模型的准确性。

本次研究输出的知识数据未来将直接运用于百度的产品中,诸如百度搜索、度秘等。项目对这些产品将有三方面的提升,首先会扩大搜索信息覆盖量,支持精准问答下的直接回答,为用户直接提供搜索结果,使得搜索效率大大提升;其次,支持模糊类搜索query,使搜索过程中的交互体验更加自然顺畅,例如将提升用户和度秘之间的交流体验;最后,使搜索结果的摘要展现形式将更加丰富多样。

百度松果计划 校企合作生态下的共赢模式

百度始终坚持持续创新的态度,致力于连接人与服务,中科院计算所在数据挖掘领域有深厚积累和丰硕的研究成果,同时中科院在该领域有诸多资深专家与优秀学生,极具技术优势和学术积累。中科院计算所将派出优秀同学作为实习生进入百度,直接参与百度的实际项目,百度技术大牛也将对其进行一对一的指导。

以百度“松果计划”为代表的校企合作模式,实现了企业与高校间资源共享、优势互补,将技术优势和理论依据相结合,不仅为高校相关领域的专家学子提供了了解互联网行业实际问题的机会,还能在合作解决问题的同时产生更多的学术成果,促进相关技术领域的发展,为人们提供更便捷的服务。正如“松果计划”项目名称的由来——松树长青,松果成熟后内有松子,寓意着百度持续致力于与高校合作产生更多饱含学术价值的科研成果。