近年来,各军事强国高度重视并积极推进无人系统及相关领域的研究,使其产生颠覆性的应用技术[1]。我国民用无人机在全球的市场占有率高达70%,大疆无人机为代表的民用无人机技术已经走在世界前列[2],但军用无人机与美英等军事强国相比仍有较大差距,军用无人机是我国未来武器装备发展的重点方向。
随着信息化与智能化的深度融合发展,无人系统在执行任务过程中积累了大量数据,国内某型号飞机每小时产生的数据量可高达20 GB[3]。无人系统产生的海量数据大多用故障树分析法来定性分析故障原因,故障树具有很强的逻辑性,能够有效避免初始故障发生[4- 5],王金鑫[6]等将故障树向贝叶斯网络转化,提出一种基于贝叶斯的故障诊断方法,有效解决了柴油机润滑系统多故障的解耦与诊断问题;褚景春[7]等通过分析风力发电机组转速特征,利用故障树和概率神经网络构建故障诊断模型,能有效提高风力发电机组转速故障检测的准确性。故障树分析法可有效了解系统失效原因,但故障树模型中的知识元素缺乏语义联系,不能穷尽所有故障原因,难以满足无人系统的维修保障需求。
人工智能已经渗透到各行各业,迅速而又深刻地改变我们的日常生活。2017年7月《新一代人工智能发展规划》的发布,人工智能已逐步成为国家发展的新兴战略需求,大数据、人机协同、群体智能等成为人工智能的发展重点。大数据时代的来临,数据量呈指数型爆炸增长,海量数据的出现会导致数据处理、数据存储、数据查询以及数据集成等技术的变革[8-10],为无人系统的维修保障模式带来了新的挑战和机遇。目前,无人系统产生的数据利用故障树模型分析故障原因,在一定程度上能缓解维修保障问题,但故障数据之间缺乏语义联系,信息难以共享,未能有效利用数据信息。随着数据量的暴增,利用故障树模型分析无人系统的故障原因,会造成海量数据的极大浪费,知识利用率低,如何有效利用无人系统的海量数据亟需解决。
鉴于以上情况,为有效利用无人系统产生的海量数据,满足现代无人系统的维修保障需求。考虑到数据的海量性、复杂性以及数据之间的语义性,本文利用知识图谱技术对无人系统的故障数据进行知识抽取、知识融合以及知识加工,形成一系列相互关联的知识,为构建无人系统领域故障知识图谱提供一种可行的方法。
知识图谱(knowledge graph)于2012年5月17日被谷歌(google)正式提出,用于提高其搜索质量的知识库。知识图谱的本质是一种语义网络,其结点代表实体(entity)或者概念(concept),边(edge)代表实体或者概念之间的各种语义关系。知识图谱以结构化三元组<“实体-关系-实体”、“实体-属性-属性值”>的形式存储现实世界中的实体(概念)及其之间的关系,即G = <Head, Relation, Tail>,Head表示头实体,Relation表示关系集合,Tail表示尾实体,其中,有些“关系”也称为“属性”,相应地,尾实体被称为属性值[11]。比如在无人系统中,要感知无人机的方向,可将多个三元组表示成一个有向图知识图谱,如图1所示:其中“陀螺仪”、“飞机方向”和“俯仰角”等表示实体,“测量”和“包含”表示实体间的关系,并且在三元组<陀螺仪,测量,飞机方向>中,陀螺仪、飞机方向分别表示该三元组的头实体和尾实体。
图1 无人系统知识图谱示意图
知识图谱已经成为学术界和工业界的研究热点,由最初用于提高搜索引擎的准确率,至今已广泛应用于机器翻译[12]、智能问答[13]、推荐系统[14-15]等。我国知识图谱虽起步较晚,但是研究成果较为丰富。在学术界,中文知识图谱研究平台zhishi.me、开放知识图谱OpenKG以及复旦大学的知识工厂等,它们不但知识来源广,而且有文本理解、智能搜索等作用,有利于促进知识图谱的普及与应用。在工业界,为提高搜索质量,搜狗和百度先后建立起自己的知识库“知立方”和“知心”,引入语义理解技术,使搜索结果准确地传递给用户。随着通用知识图谱的迅速发展,许多公司相应建立起自己的知识库,如IBM的Watson Health、阿里的健康百科“医知鹿”等,可见,知识图谱在特殊领域也扮演着重要作用。
目前,国内外利用无人系统故障数据来构建知识图谱的研究甚少,但知识图谱在健康医疗、旅游以及社交网络等垂直领域有较多研究。侯梦薇[16]等深入解析医学知识表示、医学知识抽取、医学知识融合以及医学知识推理,总结了构建医学知识图谱的关键技术以及面临的挑战;徐溥[17]改进了属性知识扩充以及属性值融合的方法,提高了知识图谱构建的质量;程文亮[18]采用最大熵模型使关系抽取的准确率平均高达85%,高质量地构建了企业间的知识图谱。基于其它垂直行业知识图谱的构建基础及其关键技术,通过无人系统数据采集器获得的数据来构建领域知识图谱,形成无人系统健康状态知识库,有利于无人系统的维修保障,无人系统的数据采集及维修保障如图2所示。
图2 无人系统数据采集及维修保障示意图
知识图谱一般包含逻辑结构和技术(体系)构架。本文从构建无人系统领域故障知识图谱出发,详细介绍技术构架。
1.3.1 知识图谱的逻辑结构
知识图谱在逻辑上可以分为数据层和模式层。模式层通常由本体库来管理,本体是结构化知识库的概念模板,如“无人系统故障”、“飞行控制系统故障”等概念实体,由本体库而形成的知识库不仅层次结构较强,并且冗余程度较小,由此可见,模式层是知识图谱的核心。数据层存储的是具体数据信息,由一系列的事实<“实体-关系-实体”、“实体-属性-属性值”>组成,如无人系统常见的故障信息<地磁仪无数据,导致,地磁仪故障>,而知识以事实为单位进行存储,在工业界主要由Neo4j图数据库来存储数据。
1.3.2 知识图谱的体系(技术)构架
随着无人系统智能化的飞速发展,传统数据处理技术难以理解数据之间隐含的关系和规则,信息共享困难,不能高效地利用无人系统产生的海量数据[3]。知识图谱技术利用自然语言处理、数据挖掘和机器学习等技术的方法和原理,能够让计算机更好地理解数据。无人系统在执行任务的飞行及停机维修过程中,积累了大量的结构化数据(状态监控数据)、半结构化数据(日志文件)和非结构化数据(图片、文档、视频),知识图谱技术可以有效利用这些数据构建高质量的知识库。借鉴通用知识图谱构建的一般流程,给出了无人系统知识图谱体系构架,构建流程如图3所示。
图3 无人系统知识图谱体系构架
由图3可知,无人系统知识图谱主要由知识抽取、知识融合和知识加工三大部分组成。无人系统的知识抽取,通过无人系统飞行时的状态参数、运动参数的结构化、半结构化或非结构化信息抽取实体、属性及其关系,并且将这些信息以三元组的形式存储到知识库中。无人系统知识融合,对无人系统知识库的冗余和错误信息通过实体消歧、实体对齐等方法进行整合、消歧,进而提升无人系统知识库的质量。无人系统知识加工,借助知识推理,推断出缺失事实,构建本体关系,通过质量评估,确保知识库的知识不会产生矛盾和不一致性。
无人系统知识图谱构建方式主要有自底向上(bottom-up)和自顶向下(top-down)两种。自底向上是通过知识抽取得到实体、属性及其关系,并通过数据驱动的自动化方式构建本体,进而构建知识图谱;自顶向下是先构建顶层本体与数据模式,然后通过实体将其丰富,进而形成知识库。目前,知识图谱的构建大多采用自底向上的方式,但无人系统故障知识图谱是领域知识图谱,涉及知识范围较窄,本文采用自底向上和自顶向下相结合的方式构建无人系统知识图谱。
知识抽取(knowledge extraction)是从开放的无人系统数据(半结构化数据、非结构化数据)自动化或人工抽取知识单元,知识单元包括实体、关系及其属性,显然,知识抽取由实体抽取、关系抽取和属性抽取三部分组成。实体抽取可以识别专有名词和特殊词语并加以归类,关系抽取是将众多离散的实体以网状的知识结构建立实体间的语义链接。实体的属性是一种特殊的实体间的关系,郭剑毅[19]等利用条件随机场和支持向量机的方法将景点实体属性抽取等价为实体关系抽取,因此可以把属性抽取问题转化为关系抽取问题。无人系统数据资源包括结构化数据,半结构化数据以及非结构化数据,针对不同类型数据,采用不同方法将其转化成三元组结构,知识抽取的过程如图4所示。
图4 无人系统知识抽取过程
针对无人系统的结构化数据(状态监控数据),由于数据库存储的数据结构性强,可直接通过D2R映射自动抽取,转化为三元组知识单元。半结构化数据(百科类知识等),可设计专门的包装器针对性抽取,如王辉[20]等利用CN-DBpedia构建的特殊包装器可实现高质量的网页知识抽取。而非结构化数据是以文本、图像、视频等文档形式存在的数据,是知识抽取的难点。非结构数据的信息抽取主要有3种方法,基于规则的方法需要领域专家制定特定的规则,不仅耗费大量人力,并且鲁棒性较差。基于机器学习的方法需要标注语料信息训练模型,且存在标注语料质量参差不齐、需要人工提取特征等不足,目前主要采用半监督学习方法,从小样本学习,在减小人力资源的情况下提高信息抽取的质量。近年来,深度学习的兴起为高质量信息抽取提供了更多的途径,BILSTM-CRF是信息抽取中主流的深度学习模型,L.Luo[21]等用BILSTM-CRF模型应用在生物医学领域的信息抽取,使得实体识别、实体关系识别准确率分别高达91.14%和92.57%,且该模型在其它领域也有较好的效果。由于无人系统产生的海量数据具有多样性、知识本身的复杂性,可以借鉴BILSTM-CRF深度学习模型自动提取无人系统非结构化数据特征,进而完成信息抽取。
知识抽取得到的三元组知识单元具有多样性、冗余、歧义、甚至错误等特点[22],如“无人机系统”、“无人系统”可能均指向同一实体。知识融合(Knowledge Fusion)将来自不同数据源的多源异构、语义多样的无人系统知识,在同一框架规范下进行异构数据的整合、冲突检测、消歧、加工等,对知识进行正确性判断,去粗取精,构建高质量的知识库[23]。
2.2.1 实体消歧
实体消歧(entity disambiguation)旨在解决实体指称与真实世界实体之间的歧义问题,并且实体消歧的难点主要两大方面[24]:
1)实体指称的多样性:同一实体在文本中会有不同的指称;如不同的实体指称“飞控”、“飞控系统”、“飞机控制系统”等,可能都对应知识库中的“无人机飞控”同一实体。
2)实体指称的歧义性:同一实体指称在不同的上下文中可以指不同的实体;如相同实体指称“大疆”可能对应知识库中的“大疆无人机”、“深圳大疆创新科技有限公司”等不同实体。
实体消歧主要有基于聚类的实体消歧方法和基于实体链接的实体消歧方法,示意过程如图5所示。
图5 实体消歧示意图
由图5可知,当没有目标实体时,实体消歧大多采用基于聚类的方法。聚类法是基于实体指称的特征(上下文的词语、实体属性等),计算实体指称之间的相似度,通过聚类算法对实体指称聚类。李广一[25]等基于向量空间相似度,使用层次聚合式聚类(HAC)算法对未与知识库链接的文档进行聚类,实现歧义消解,F值高达88.35%。基于实体链接的实体消歧,通过计算实体指称与目标实体之间的相似度,将实体指称链接到知识库中与实体指称相似度最高的目标实体。然而,当知识库中不存在目标实体与实体指称对应时,将实体指称链接到空实体。针对无人系统产生的数据,通过信息抽取得到的实体指称,可先将部分实体指称链接到历史知识库,将剩余未链接的实体指称通过基于聚类的方法进行实体消歧。
2.2.2 实体对齐
实体对齐(entity alignment)也称实体匹配(entity matching),旨在解决相同或不同知识库中的两个或多个实体在现实世界是否为相同实体的问题,通过消除异构数据源知识库中的实体冲突、指向不明等不一致问题,高质量地链接多个现有知识库,从顶层创建一个大规模统一的知识库[26-27]。
无人系统产生的海量数据,通过知识抽取得到的实体,也需要实体对齐来提高无人系统知识库的质量。实体对齐算法是实体对齐技术的核心,主要有成对实体对齐和协同(集体)实体对齐两类。成对实体对齐主要通过提取实体及其属性特征,并计算它们的相似度来实现实体对齐,相似度计算方法主要有基于传统概率模型和机器学习方法;协同实体对齐是在实体对齐的基础上,在计算相似度时考虑与实体相关的其它实体属性,并赋予权重[16, 26]。
通过知识抽取、知识融合等技术可以从无人系统的原始数据得到基本的事实表达,事实通过特殊的知识加工可形成高质量的知识。知识加工主要包括以下4个方面:本体构建、知识推理、质量评估和知识更新。
1)本体构建:无人系统故障知识图谱涉及知识范围较窄,采用自底向上和自顶向下相结合的方式来构建知识图谱。本体(Ontology)是对共享概念进行规范,形式化描述对象、属性及其关系[28]。首先确定无人系统故障知识图谱的核心概念(“无人系统故障”、“飞控系统故障”、“动力系统故障”等),将抽取到的实体通过数据驱动的方式自动构建本体,其主要步骤:并列关系相似度计算、实体上下位关系抽取和本体生成[29]。
2)知识推理:知识推理是从已有的无人系统知识库中已有的实体关系出发,建立实体之间的新联系,拓展和丰富知识库的知识网络[30]。知识推理主要有基于逻辑的推理和基于图的推理两种方法,能够从已有的知识中发现新知识,在无人系统知识库中若已知(陀螺仪,测量,飞机方向)、(飞机方向,包含,偏航角)和(偏航角,异常,角度),则可以推理出陀螺仪出现故障。
3)质量评估:通过知识抽取得到的无人系统领域的知识元素可能存在错误,经过知识推理得到新知识的质量也无法完全保证,因此在将其加入知识库之前,需要有一个质量评估的过程,质量评估是保障数据的重要手段,并且贯穿在知识图谱的整个生命周期[30-31]。通过筛选置信度高的数据,可使无人系统知识库的数据得到进一步保障。
4)知识更新:信息随着时间不断积累,是一个动态过程,无人系统知识图谱也需要不断迭代更新。知识库的更新包括模式层的更新和数据层的更新;模式层的更新是指概念层的更新,新的概念添加到知识库的概念层后,需要更新概念的属性及其关系;数据层的更新主要是新增或更新实体、关系和属性值[30, 32]。
知识图谱可以提供一种管理与利用海量异构数据的有效方式,使大量数据产生普遍联系并得到良好表达,有着广泛的军事应用。
传统的搜索是基于关键词匹配索引,搜索引擎不能理解用户的真正语义,检索效率低下[33]。知识图谱本质是一种实体间关系的语义网络,能够改变现有的信息检索方式,通过推理实现概念检索并且以图形化的方式展现结构化知识[26, 30],提高搜索精度,知识图谱在智能搜索方面有着天然的优势。知识图谱可应用于智能导弹的目标追踪,如图6所示,预警机被周围多种类型飞机保护,对预警机进行目标打击常常受到周围飞机或者飞机发射信号的干扰,装载有目标(预警机)“知识图谱”信息的导引头智能导弹,可以自动筛选匹配目标相关信息,具有电磁、红外、多光谱、图像等抗干扰能力,可实现对目标的精准打击。
图6 基于知识图谱的智能导弹
搜索引擎一般能满足人们信息获取需求,但随着互联网信息的爆炸式增长,使得搜索结果太多,用户很难快速准确地获得所需信息,可以更好满足用户信息需求的问答系统受到青睐[34-35]。对于问题的输入,问答系统的输出是一个简洁的答案或者可能答案的列表。在日益复杂的军事问题上,问答系统可以有效提高军事决策效率,对作战决策有着重要意义。图7是问答系统在军用飞机上的应用,可实现精确简洁的信息结果。
图7 某军事问答系统
由于计算能力、海量数据以及核心算法的出现,基于知识图谱的辅助决策技术在健康医疗、金融、智慧城市交通等领域有着广泛的应用。如IBM的Watson Health借助海量数据形成的知识库,利用深度学习算法对肿瘤和癌症领域进行决策判断,供医学专业人员参考。知识图谱通过对数据、知识等信息的分析统计,发现数据信息之间的关联并挖掘其中规律,结合历史知识库相关经验做出预判,实现智能化辅助决策,可运用于未来的军事应用。
本文介绍了知识图谱的概念性知识,对无人系统的海量数据进行知识抽取、知识融合以及知识加工,形成高质量的三元组知识,为构建无人系统领域故障知识图谱提供一种可行的途径。利用海量数据构建的知识图谱具有智能搜索、系统问答、辅助决策等功能,具有重要的军事应用前景。
Copyright © 深圳安谱信息技术有限公司 版权所有 粤ICP备19028094号 sitemap 技术支持