O 引 言
本体学习能力对本体构建和语义Web的快速发展及自动问答技术的发展,具有非常重要的意义。现有本体可深层次理解领域知识,但是手工构建本体的方式远远不能满足语义检索应用的需求。因此,运用本体学习策略提高本体构建的速度成为本体应用的关键。以汉语框架网络本体知识库为基础,采用不同的学习策略来处理不同特征的实例,抽取其中的语义信息,以便更好实现实例的定位和本体归类。同时,通过实时监控,系统检查用户的检索情况,采用适合用户特征的辅策略来控制和修正主策略,提高检索的性能。
l 汉语框架网络本体的构建
以FrameNet本体为依据,以法律领域为突破口,从语义角度描述法律概念与概念、词语与词语间的关系,形成语义知识网络,构建法律词汇及其所属框架的计算机可读信息。法律框架网络本体中包含丰富的框架关系、配价模式等语义规则,机器可以此来自主地学习领域内外相关的概念及属性,建立概念之间的关系。通过学习可以实现已有的框架与新框架的有效融合,不断丰富法律框架本体,扩大其语义表述能力,提高本体知识库的归纳、演绎、推理的能力。
2 本体学习策略
本体学习是一种可以由本体工程师使用,以便更容易地创建本体的方法,是一套用几种资源以半自动化方式对现存本体进行挖掘、丰富或改造来构建新本体的方法和技术。目前,很多本体学习方法都以不同类型的无结构的,或半结构的,或充分结构化数据来进行训练,运用联想规则、概念聚类、本体修改、概念学习等方法,构建一个自动或半自动的、协同的本体。在汉语框架网络中,我们采用了基于本体学习的半自动本体构建方法,采用多种学习策略,综合构建一体化的本体学习环境,加快本体构建和本体语料加工的进程。此方法能更好的发现概念间的关系,更有效地获得本体信息,是一种比较高效可行的本体构建方法。
本体学习的过程如图l所示。首先,对各类语料进行处理,其中包括分词、词性标注、句法依存分析、语义信息的提取。其次,从语料库中提取领域术语,使用自然语言处理、学习规则和统计的技术来过滤这些术语,然后使用通用本体中的概念对这些术语进行语义解释,确定术语的语义类型,形成本体学习的结果。最后,由专家对学习结果评估,从而利用通用本体和核心本体来学会新领域本体。
2.1 语义信息的抽取
汉语框架网络本体的语义信息由框架、语义元素及语义关系构成,而语义关系包括继承关系、总分关系、使用关系和参照关系等。语义关系是对框架网络本体间共同特性的描述,也是两者的共同关注焦点,故可借助语义关系从一个已知框架来学习另一个未知框架的语义信息。
构建汉语框架网络本体时,我们采用一个5元组O:={C,R,HC,rel,AO}来表示框架的语义信息。其中:C表示与该框架发生关系的框架集合;R为框架间的关系的集合;XXXXXXX是一种有向关系,HC(Cl,C2)表示框架Cl是框架C2的上位框架,其中框架关系包括继承关系和使用关系;rel:R→C×C是一个函数,亦可表示为R(C1,C2),表示除了继承关系和使用关系外的框架间关系;AO为框架进行本体学习和推理的逻辑化、形式化公理,用以约束本体中的语义信息,校验它的正确性或推导出新的信息。这样,在上述5元组的基础上,将学习任务的初始描述、中间状态、学习到的规则等都借助例句库保存起来,从而形成一组基本事实和判定公理。在公理中,我们利用了句法一语义相对应的学习经验生成一系列规则,把每一个语法成分同它的框架元素联系起来,然后从词元和框架中找出合适的基本联系,此方法对于不可继承的框架元素的确定具有重要意义。然后,把基本学习器组成元学习器,元学习器分配给每个基本学习器一个权重,来显示它所信任基本学习器在元学习器中学习能力。然后,由人工对此进行确认和修正,最终形成完整的框架网络本体语义信息。
语义信息抽取时,学习器通过给定的学习策略不断地在一组候选框架及例句中挑选最适合的选项加入学习器中,这些候选框架及例句被公理和规则不断地特殊化(借助大量的反例来筛选候选框架及例句),直到它们符合第一类基本学习器的基本条件,然后由第二类学习器进行语义关系的学习。其中,第一类基本学习器利用了每个框架特定的语义信息,来处理框架间的继承关系,从上位框架中继承所有的框架元素。例如,框架“文本”与框架“人造物品”属于继承关系,“人造物品”包含框架元素:创建者、类型、材料、人造物品、创造时间、名称、使用价值等,以其语义信息作为学习的基础,可归纳出“文本”框架应包括的框架元素及其它的语义信息。第二类基本学习器利用框架间的其它语义关系,如总分关系、先与关系、使用关系等。比如,框架“犯罪场景”与框架“犯罪”属于总分关系。“犯罪”部分继承“犯罪场景”的犯罪行为、犯罪人元素,同时增加了时间、地点、动机等其它元素。这需要学习器根据分框架中主体担任的角色不同及情景的差异进行总结而获得。这样,通过学习器的学习,就获得了未知框架网络本体遗失的语义特性,再根据相应的判断公理来学会了未知框架所代表的语义信息。
2.2 配价模式的学习
通过对语义信息的学习,我们把句子解析成了若干语法要素和语义元素。配价模式学习过程中,参照已有的本体及其语义模式(配价模式)等信息,根据词性分析、语法分析和句法分析的结果及所总结的规则和统计信息,生成框架的配价模式。
框架配价模式学习过程:1)对例句做句法依存分析。2)以句法依存树中的结点为目标词,将目标词所有的子树看作一语义元素,每个子树包含的所有词语默认为最大短语。3)根据子树的根结点与目标的句法依存关系类型,与已有配价模式匹配,确定子树在配价模式中充当的框架元素,比如,它们之间为动宾关系,那么子树就作为“受事”框架元素。若存在使义动词则子树所做框架元素为“施事”。最后,如果子树中存在像并列关系之类的依存关系则应当考虑将其进一步细分为若干框架元素,算法如图2所示。