欢迎使用TextGrocery

TextGrocery是一个基于LibLinear结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。

GitHub项目链接

性能

  • 训练集:来自32个类别的4.8万条中文新闻标题
  • 测试集:来自32个类别的1.6万条中文新闻标题
  • 与scikit-learn的svm和朴素贝叶斯算法做横向对比
分类器 准确率(%) 计算时间(秒)
scikit-learn(朴素贝叶斯) 76.8% 134
scikit-learn(svm) 76.9% 121
TextGrocery 79.6% 49

安装

  1. 通过GitHub(最新版本)
git clone https://github.com/2shou/TextGrocery.git
cd TextGrocery
make
  1. 通过pip(更稳定)
pip install tgrocery