正在看《集体智慧编程》的第二章,文章中的数据集太小,最近两天爬取了豆瓣 TOP250 电影的影评数据,大约 28 万条。最近的目标是分析这些数据,学习推荐系统算法。
目前打算用的资料有:
-
gitbook 上的 https://wizardforcel.gitbooks.io/guide-to-data-mining/content/2.html 感谢作者和译者
-
《集体智慧编程》
请问 V 友有珍藏的学习资料么?能推荐一下么?先谢啦
注:
顺便提一下,爬虫系列的正则表达式部分更新了,近期不会更新爬虫系列,以后会把坑填完。本不喜欢玩爬虫,只是为了获取数据方便而学爬虫的。爬虫中的正则表达式(持续更新)