大模型微调一般使用的是 json ,jsonl 或 parquet 格式存储的对话数据集,我看了一些公开的数据集,都是问答对形式的对话数据集,结构化的文本数据。
我的疑问是,构建上千条甚至上万条这种对话数据,一般使用的工具是什么?传统的数据标注,是用一些数据标注工具为每一条数据添加标记(这里面一般不能修改原始数据),这些对话数据,显然是需要能自己构建和修改的(或者让模型生成回答,人工审核和编辑),直接编辑 json 或 jsonl 文件看起来不太现实,因为它们不会对"\n"这种转义符进行转义,所以如果文本很长,看起来就是一行很长很长的文本,直接在 VSCode 里查看和编辑很吃力也不够直观(你们可以尝试下载一些公开的数据集然后在 VSCode 或其他文本编辑器打开就知道了)
我看到很多说明如何使用这些数据集进行训练的文章或教程,但很少有讨论关于如何从零开始构建这些数据集的方法,甚至似乎没有一个很好的编辑工具可以随时查看和修改对话数据。还可以延伸到多人协作的问题,仅靠一个人完全审核和修改上千至上万条对话数据,这工作量也是很大的,一般需要多人协作,那这个工具还得能支持多人协作才可以。
我之前尝试了 Doccano 和 Label Studio ,不知道是我设置有问题还是操作有问题,我发现这些标注工具都是为 NLP 任务设计的,而不是为 LLM 对话数据设计的,并不能很好满足这种场景。
1
suckinbottle 9 小时 28 分钟前
https://github.com/ConardLi/easy-dataset, 这两天在疯狂学习模型微调, 这个是可以根据自己要求生成数据集的工具.
|
2
TimePPT PRO 几万量级的 QA Pair ,本地导入 sqlite 数据库不就得了,批量查找修改很方便。或者本地 juypter lab 配合 pandans 、duckdb 、Polars 都很好处理。
这是从做机器学习时期就开始的基操了 |
3
rogerer 2 小时 53 分钟前
其实也还好吧,上万条数据其实 Excel Online 就可以 hold 住
|