9月10日,2019年度北京市科学技术奖励大会在京召开,共154项成果获奖。由云知声与中科院自动化所合作完成的项目——“大规模知识图谱构建关键技术与应用”荣获科学技术进步一等奖。
知识图谱是新一代人工智能的基础设施,在将网络大数据、行业大数据、用户大数据转化为大知识的过程中具有重要作用。构建大规模知识图谱及其应用引擎,对于我国提升产业智能化水平,推动自然语言处理、知识工程等相关学科发展,占领下一代人工智能技术和知识服务的科技制高点具有重要战略意义。
据介绍,本项目以构建大规模知识图谱与知识应用引擎并赋能行业智能应用为总体目标,针对大数据环境下知识类型开放、语言表达多样等特点,率先提出基于弱监督卷积神经网络的大规模文本知识获取系列方法,实现了千万级规模的多领域知识自动抽取;在此基础上,创新性地提出面向异构海量知识图谱的深度学习问答方法,为知识查询和推理等深层应用提供有效技术支撑。项目的主要创新点包括四个方面:
一、针对知识获取过程中多样化文本的语义表示问题,提出基于卷积深层神经网络的知识抽取方法,有效避免了抽取模型对自然语言处理工具的过分依赖以及误差累积问题,突破了领域和语言的约束和限制,显著拓展了知识抽取的应用范围。
二、针对大规模知识获取时的训练数据不足问题,提出基于远距离监督卷积深度神经网络的知识抽取方法,有效解决了开放域环境下训练语料自动生成以及带噪数据学习问题,为大规模知识图谱构建提供了一种实际可行的解决方案。
三、针对大规模知识图谱应用中的知识匹配困难与知识稀疏问题,提出基于深度学习的端到端知识库问答与推理方法,将传统基于符号表示的问答、推理过程转变成基于语义数值计算的可学习问题,实现了大规模、开放域环境下的知识图谱有效利用。
四、集合项目主要科研成果,研发了具有完全自主知识产权的大规模知识图谱构建与应用的工具和平台,具备领域知识建模、实体识别、关系抽取、事件抽取、知识问答等核心功能,并赋能行业应用,在医疗、电商、教育、金融等多个领域和应用场景中实际落地。
该项目共计发表CCFA/B类论文35篇,GoogleScholar引用超过7000次,最高单篇引用超过1000次,并获国际计算语言学大会COLING2014最佳论文奖。同时获发明专利授权15项,核心算法、工具、资源已应用于云知声公司电子病历智能录入、智能客服等多种产品,并嵌入智能音箱、智能儿童教育机器人等终端设备。同时,核心技术也应用于金融、出版、通讯、电商等领域,取得良好的社会和经济效益。
2017年,云知声携手中科院自动化所成立“语言与知识计算联合实验室”,面向真实行业大数据和用户大数据,探索领域知识图谱的构建和应用技术,推动创新技术在多领域场景下的实际落地。此次获奖项目组成员皆出自该实验室。
除此次奖项之外,近年来在核心技术不断取得创新突破的背景下,由云知声主导研发的多个项目也先后入围科技部“科技创新2030新一代人工智能重大工程”、工信部“人工智能与实体经济深度融合创新项目”、“吴文俊人工智能科技进步奖”等国家级奖项。