20.1MB
1.32MB
Friso Free Edition是一个高性能的中文分词机器,将在编程中使用。这个软件使用了mmseg算法,我们的用户可以很容易地将Friso正式版植入到其他程序中,而且这个软件还可以在多种不同的平台上使用!
Friso自由软件功能
Friso核心功能:中文分词:mmseg算法+Friso独创的优化算法,四种分词模式。
关键词提取:基于textRank算法。
基于textRank算法的关键词抽取。
基于textRank算法的关键句抽取。
Friso中文分词:
四种细分模式:
简单模式:FMM算法,适用于要求速度的场合。
复杂模式-MMSEG四种过滤算法歧义去除率高,分词准确率达到98.41%。
检测模式:只返回词库中已有的词条,非常适合某些应用。(1.6.1版本开始)。
大多数模式:细粒度分割,这是专门为检索设计的。除中文处理(无中文姓名、数字识别等智能功能)外,其他模式与复杂模式一致(英文、组合词等。).
分词功能:
同时支持UTF-8/GBK编码的分段、php5和php7扩展以及sphinx token插件。
支持自定义词库。在dict文件夹下,可以随意添加/删除/更改叙词表和叙词表条目,对叙词表进行分类。
简体/繁体/简体混合支持,可轻松拆分为简体、繁体或简体繁体。同时,还可以实现简体和繁体的相互检索。
支持汉英/英汉混合词的识别(维护词库可以识别任意组合)。比如:卡拉ok,漂亮mm,c语言,IC卡,哆啦a梦。
良好的英文支持,英文标点组合单词识别,如c++,c#,e-mail,网址,小数,百分比。
自定义标点保留:可以自定义切分结果中保留的标点,这样可以识别一些复杂的组合,比如c++,k&r,code.google.com。
复杂英文切分的二次切分:默认情况下,Friso会保留原来的数字和字母组合。如果开启该功能,可以进行二次分割,提高检索的命中率。比如qq2013会分为qq/ 2013/ qq2013。
支持阿拉伯数字/小数的识别,比如2012,1.75m,5t,120kg,38.6℃。
自动英文舍入/半角,大写/小写转换。
同义词匹配:自动添加中英文同义词。(需要打开friso.ini中的friso.add_syn选项)。
自动中英文停用词过滤。(需要在friso.ini中打开friso.clr_stw选项)。
多配置支持,在多进程/多线程环境下安全应用。