jiebaR 中文分词

Build Status Build status codecov DOI

"结巴"中文分词的R语言版本,支持多种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了RcppCppJieba进行开发。

细胞词库转换可以使用 cidian 包 :https://github.com/qinwf/cidian/

特性

安装

通过CRAN安装:

install.packages("jiebaR")
library("jiebaR")

cc = worker()
cc["这是一个测试"] # or segment("这是一个测试", cc)

# [1] "这是" "一个" "测试"

同时还可以通过Github安装开发版,建议使用 gcc >= 4.9 编译,Windows需要安装 Rtools

library(devtools)
install_github("qinwf/jiebaRD")
install_github("qinwf/jiebaR")
library("jiebaR")

使用指南 与 演示

使用指南 :http://qinwenfeng.com/jiebaR/

正在撰写的文档 : https://jiebaR.qinwf.com/

Shiny 演示 :https://qinwf.shinyapps.io/jiebaR-shiny/

细胞词库转换 :https://github.com/qinwf/cidian/

问题

使用中遇到的任何问题,都可以:

jiebaR

This is a package for Chinese text segmentation, keyword extraction and speech tagging. jiebaR supports four types of segmentation modes: Maximum Probability, Hidden Markov Model, Query Segment and Mix Segment.

Features

Installation

Install the latest development version from GitHub:

devtools::install_github("qinwf/jiebaR")

Install from CRAN:

install.packages("jiebaR")