1
dovme 2020 年 8 月 13 日 jieba 分词
|
2
rabbull 2020 年 8 月 13 日 `import jieba as jb`
|
3
johnsona 2020 年 8 月 13 日 boson 分词
效果很好 页面就可以体验,但限制次数 不要用 ip 代理去撸,不要逼得别人要登录才可以体验 |
4
huobazi 2020 年 8 月 13 日
中国人都用 "结巴" O(∩_∩)O 哈哈~
|
5
zhou00 2020 年 8 月 13 日
jieba, 精确模式,得到的结果跟你要的结果一样
|
6
marcong95 2020 年 8 月 13 日
@jsisjs20130824 #3 搜了下这个 boson,搜到一个 BosonNLP.com 的网站,似乎已经停止对外开放还是怎么着,跳转到了阿里巴巴集团的登录页,用自己的淘宝账号似乎是登不进去,需要内部账号
|
7
wangritian 2020 年 8 月 13 日
jieba/hanlp
|
8
johnsona 2020 年 8 月 13 日
|
9
zcfnc 2020 年 8 月 13 日
我也是一直用的 jieba
给楼主参考一下 import jieba as jb result = jb.lcut("我们希望 V2EX 能够成为中文世界中氛围最好的社区,而实现这个目标..") print(result) ···['我们', '希望', ' ', 'V2EX', ' ', '能够', '成为', '中文', '世界', '中', '氛围', '最好', '的', '社区', ',', '而', '实现', '这个', '目标', '..']··· |
10
KalaSearch 2020 年 8 月 13 日 via iPhone
请问分词是在什么场景下用?看起来是为了提高搜索的召回率?
如果是搜索的话,可以尝试下卡拉搜索,不用自己配置分词 |
11
zxc12300123 2020 年 8 月 13 日
bosonnlp, hanlp 都不错,jieba 真的很差。。
|
12
KalaSearch 2020 年 8 月 13 日 via iPhone |
13
519718366 2020 年 8 月 13 日
借楼问下,java 版的 hanlp 能获取 同义词的 扩展不
比如同义词:super,超级 输入:super hanlp 分词处理后,我能获取到 super 以及它的同义词 超级 |
14
l890908 OP @jsisjs20130824 这个找了半天没找到注册获得 TOKEN 的地方?😂😂😂
|
17
xiaoliu926 2020 年 8 月 13 日
我用的百度分词,50W 次免费
|
18
laminux29 2020 年 8 月 13 日
结巴分词有 2 个问题:
1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 |
19
netnr 2020 年 8 月 13 日
|
20
linvaux 2020 年 8 月 13 日
用 lucene 的 IK 分词器
|
21
Merlini 2020 年 8 月 13 日
既然是 nlp,还是要提百度的,推荐百度刚出的 lac 。
https://github.com/baidu/lac |
22
Baboonowen 2020 年 8 月 13 日
北大分词
|
23
levelworm 2020 年 8 月 14 日 via Android
@KalaSearch 梁哥做的对吧,微博上有关注
|
24
encro 2020 年 8 月 14 日
@laminux29
结巴分词有 2 个问题: 1.不支持新词。如果比较重要的话,可以后期人工再过滤一遍。 2.python 程序性能差,对多核支持不行。建议根据核数,开对应数量的 python 程序,然后用负载均衡的通信框架进行负载均衡地 rpc 。 1,HMM 模式支持自动发现新词。 2,运行过性能测评?那么结巴的c++,GO,Java 实现呢? |
25
mjikop1231 2020 年 8 月 14 日
deepl 的分词,除了贵还好用
|