大概需求是通过分析一个帖子的内容来对网页内容进行归类,因为之前没做过类似需求,
帖子的数据如下: [标题],[主贴内容],[每层楼的回复]
因为需要提取的分类不多本人也不懂机器学习这些,所以打算从标题,主贴和回帖的内容分别去做关键字的过滤,然后对每个部分设置不同权重,通过计算分值来确定帖子的归类。 还请各位能给点小意见,或者有什么成熟方法可以达到这样的目的
大概需求是通过分析一个帖子的内容来对网页内容进行归类,因为之前没做过类似需求,
帖子的数据如下: [标题],[主贴内容],[每层楼的回复]
因为需要提取的分类不多本人也不懂机器学习这些,所以打算从标题,主贴和回帖的内容分别去做关键字的过滤,然后对每个部分设置不同权重,通过计算分值来确定帖子的归类。 还请各位能给点小意见,或者有什么成熟方法可以达到这样的目的
1
CEBBCAT Feb 26, 2019
先说说分啥类吧……
|
3
lixuda Feb 26, 2019
我也有这个需求
|
4
mjawp Feb 26, 2019
可以了解一下 svm,sklearn 库里面有现成的算法可以直接用的,不过你可能要稍微研究一下大概的原理。
也可以了解一下 fasttext,这个更简单,看完 readme 就能上手的了。 问题是你有没有已经标记好的数据集,就是有一大堆已经标记好属于什么分类的帖子。。 |
5
zycpp Feb 26, 2019 via iPhone
训练数据量? 试试决策树?
|
8
Libby520 Feb 26, 2019 via iPhone
tag
|
9
huhuhushan Feb 26, 2019
没有数据的话,可以考虑一下 k-means 聚类算法,比较简单.
|
12
Raymon111111 Feb 26, 2019
可以先到现有的一些大论坛爬点数据当样本训练
|
14
a1528026364 Feb 27, 2019
参考下 V 站的
|