鉴于毕设做的类似于语义分析然后提取关键字信息这种东西... =-= 就厚着脸皮来回答一下... (但肯定是最浅显的那种...)
首先是语义分析
第一步是分词,这个已经有很多现有的也挺好用的开源算法了~ 我当时用的是ansj,可以自己定义词库,并定义词性,可以识别新词,但是新词的识别其实不太好用... =-= 你依旧要根据自己的需求去定义词性。例如我当时做的是案情描述文本分析,例如“弹簧开锁”这种关键词语,我就适当的修改弹簧和开锁的词性,弹簧是tool,开锁是vsteal。然后开锁、弹簧等词可以导入一个近义词词库,将相近的词的词性进行更改。虽然这样准确率可能会受到影响,但是不用自己一个个找一个个改啊... 还有很多人说nlp什么的也好用~ 我没试过....
然后就是根据分出来的词(大部分分词工具都会注明名词、动词等词性),区分主谓宾等,然后再分析语义,当时用的是卷积和关联规则来分析(因为当时分析的文本范围比较窄,就针对盗窃案情分析~ 所以简单~ 关联规则和决策树都很好用~)卷积当时用途并不大,因为太简单了用不到吧hhh 用也只是为了提升毕设的高大上感... =-= 然后卷积这方面已经有很多很多中文论文可以参考了~(我自己实际用的模糊匹配... emmm 也还好用的...)
语义分析完之后... 我就不是很清楚了~ 因为就当时要分析的内容来说~ 我只要得到各个关键词或者案情描述文本的topic就可以了~ 也就是用了用LDA...
感觉这方面还是很有意思的~~ 然而我的智商让我望而却步.......