1、github地址:https://github.com/baidu/lac;
下文中描述的编译步骤中已经编译好的windows版本下载地址:编译好的dll文件下载地址:https://download.csdn.net/download/changingshow/20623664
2、简介:LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势:
3、我的需求是,对文章进行分词,并可以通过加载自定义的模型文件进行分词,根据返回的结果,进行下一步业务处理。比如,我希望文章中出现 “天气真好”四个字的时候,可以把这四个字当成一个词语返回回来,并且携带我自定义的“词性”比如,“good_day”。
4、出现的问题:开始使用的时候并没有想着自己编译版本,就想着使用官方提供编译好库,地址:https://github.com/baidu/lac/releases/
但是在使用中发现,每次使用都必须重新加载自定义模型文件(loadCustomization),否则上一次的分词结果会影响下一次的分词结果&#x