"结巴"中文分词的R语言版本,支持多种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。
细胞词库转换可以使用 cidian 包 :https://github.com/qinwf/cidian/
通过CRAN安装:
install.packages("jiebaR")
library("jiebaR")
cc = worker()
cc["这是一个测试"] # or segment("这是一个测试", cc)
# [1] "这是" "一个" "测试"
同时还可以通过Github安装开发版,建议使用 gcc >= 4.9 编译,Windows需要安装 Rtools :
library(devtools)
install_github("qinwf/jiebaRD")
install_github("qinwf/jiebaR")
library("jiebaR")
使用指南 :http://qinwenfeng.com/jiebaR/
正在撰写的文档 : https://jiebaR.qinwf.com/
Shiny 演示 :https://qinwf.shinyapps.io/jiebaR-shiny/
细胞词库转换 :https://github.com/qinwf/cidian/
使用中遇到的任何问题,都可以:
This is a package for Chinese text segmentation, keyword extraction and speech tagging. jiebaR
supports four types of segmentation modes: Maximum Probability, Hidden Markov Model, Query Segment and Mix Segment.
Install the latest development version from GitHub:
devtools::install_github("qinwf/jiebaR")
Install from CRAN:
install.packages("jiebaR")