Np+V+着+N
→(有)+N+V+在+Np
在此,Np表示句首方处所结构;V表示动词或动词短语;N表示句末名词性结构。
在原句式中,“挂”和“画”是动作和受事关系,“墙上”表示存在的处所;在变换式中,“挂”和“画”仍是动作和受事的关系,“墙上”仍表示“画”的存在的处所。三者在共现词之间的语义关系上保持不变。
通过对存现句的句子结构分析得出各种句法结构框架,进一步进行抽象化,就得到了改写模板。分别以s,f,t表示处所、方位和时间的品词标记,则每种结构都会有(s)处所词,(f)方位词,(t)时间词。将其分离出来,作为该类模板的关键词结构。对于有介词的句式,将介词保留或是变换成另一种形式。合并名词短语,形容词短语等非关键成分,就得到了如下的改写模板:
其他几种句式比如倒装句、名词谓语句、双重否定句、反问句、特指问句、选择问句、“把”字句、“被”字句、“比”字句等的改写模板的抽取过程与上述存现句的类似。
2 改写的处理过程
模板匹配是基于模板方法的改写系统的关键,基本思想是实现一个具有少数关键词常项、任意多个变项的模板匹配算法,把原语句中的任意符号串结构自动替换成目标语句中的符号串结构。在具有关键项、约束项、任意变项的模板匹配算法的基础上,可以利用按照一定的层次结构组织存贮的模板,实现从原语句到目标语句的自动改写。在此关键项是指抽出的所有模板共通的关键词,而约束项是指所有抽出模板中除关键项之外的关键词。在进行语句改写时对将要进行改写的语句抽出其结构框架,计算它与改写模板的相似度以决定与之相匹配的改写模板,计算式如式(1),式(2)所示。
关键项相似度和约束项相似度计算:
则待改写句与模板的相似度计算:
式中:SKW为待改写句与模板对应的关键项个数;RW为待改写句与模板对应的约束项个数;TKW为模板中所含关键项个数;TRW为模板中所含约束项个数;KWS为待改写句与模板的关键项相似度;RWS为待改写句与模板的约束项相似度;TemSim为待改写句与模板的相似度;α,β是加权参数由预备试验获得。通过式(1),式(2)的计算获得待改写句与模板的相似度值,满足设定的相似度阈值的模板用于改写。
3 语句改写实验及考察
3.1 实验数据及结果
实验使用了从中学课文中收集的约300个句子,模板库中模板总数为196个。语句改写的输入内容是使用分词系统得到的分词和词性标注过的句子。改写结果的正误判断通过手工进行。判断的基准分为改写正确和改写错误。改写正确:改写句没有错误、表达意思不变或错误较少及表达意思基本不变;改写错误:信息缺失、语序混乱及表达意思改变。
采用评价函数对抽出模板及其语句改写的效果进行评价,公式如下:
式中:CPR为正确改写率;TCR为模板覆盖率;CPN为正确改写数目;PST为改写句子总数;IST为输入句子总数。由式(3)对实验结果评价得到在被改写句中改写正确率为74.71%,模板覆盖率为66.34%。
3.2 实验结果的考察
在被改写的语句中随机抽取200句,其中错误改写句为49句。通过对改写错误句子进行考察,获得造成改写误差的不同原因。在改写错误中由于分词和词性标注错误而导致改写的错误约占19.23%,而由于待改写句修饰成分过和多句子过长,则分词后的词汇信息单元过多,超出了模板所能描述的程度,出现的错误改写率占38.46%。模板匹配错误而导致的改写错误有:模板抽出的错误和相似度计算不够精确而导致的错误的匹配分别占15.38 9/6和26.93%。由此可见对于较长的句子需要对抽出模板的方法进一步探讨,此外相似度计算也有进一步改进的必要。
4 结 语
通过考察句子的语法结构,抽出句子的结构框架从而进行了语句改写模板的构造。对待改写句则通过计算改写句与相应模板的框架中包含的关键项和约束项的相似度进行模板的匹配。通过对小规模数据进行的实验及考察给出了针对几种特殊结构的句子的改写效果。错误分析指出了改写方法及处理细节上存在的问题,在今后的研究中计划针对抽取模板的细化、相似度计算方法的改进、扩大对不同结构语句的模板的抽取范围和进行较大规模数据的实验考察等方面进行探讨。