使用 Easy DataSet 生成微调数据

Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。

项目地址:https://github.com/ConardLi/easy-dataset

部署 Easy Dataset

此处使用 Docker 部署:

1
2
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

修改 docker-compose.yaml 文件,注释数据库相关配置:

1
2
3
...
# - ./prisma:/app/prisma
...

部署 Easy Dataset:

1
docker compose up -d

部署大模型

后续数据生成需要调用大模型,此处使用 Ollama 部署大模型:

1
docker run -d --gpus=all -v /root/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

下载大模型:

1
2
# 使用魔塔社区下载大模型:https://modelscope.cn/docs/models/advanced-usage/ollama-integration
ollama pull modelscope.cn/Qwen/Qwen2.5-1.5B-Instruct-GGUF

生成微调数据

此处测试使用示例数据:https://github.com/the-seeds/FinancialData-SecondQuarter-2024

创建项目:

在模型配置界面编辑 Ollama,选择刚刚下载的大模型:

在右上角选择大模型:

在数据源 -> 文献处理,上传示例数据文件:

点击批量生成问题:

待任务完成后,可以看到生成的问题数据:

在问题界面,生成数据集:

导出微调数据

在数据集界面,导出数据集:

导出后,在数据目录可以找到对应的导出文件:

1
2
3
4
5
6
7
8
9
root@gpu-0:~/easy-dataset/local-db/SWDlkuZDMvNy# ls -lh
total 212K
-rw-r--r-- 1 root root 46K Jan 13 15:41 alpaca.json
-rw-r--r-- 1 root root 927 Jan 13 15:41 dataset_info.json
drwxr-xr-x 2 root root 37 Jan 13 15:28 files
-rw-r--r-- 1 root root 104K Jan 13 15:41 multilingual-thinking.json
-rw-r--r-- 1 root root 51K Jan 13 15:41 sharegpt.json
-rw-r--r-- 1 root root 497 Jan 13 15:27 task-config.json
drwxr-xr-x 2 root root 49 Jan 13 15:28 toc

主要关注这三个文件:

  • dataset_info.json:LlamaFactory 所需的数据集配置文件
  • alpaca.json:以 Alpaca 格式组织的数据集文件
  • sharegpt.json:以 Sharegpt 格式组织的数据集文件

alpaca.jsonsharegpt.json 存放在 LlamaFactory 的 /app/data 目录下,并修改 /app/data/dataset_info.json,将导出的 dataset_info.json 内容追加进去即可。

LlamaFactory 使用数据集进行微调

具体操作方式可以参考:https://warnerchen.github.io/2026/01/12/%E4%BD%BF%E7%94%A8-LlamaFactory-%E8%BF%9B%E8%A1%8C%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/

模型微调前:

模型微调后:

Author

Warner Chen

Posted on

2026-01-13

Updated on

2026-01-13

Licensed under

You need to set install_url to use ShareThis. Please set it in _config.yml.
You forgot to set the business or currency_code for Paypal. Please set it in _config.yml.

Comments

You forgot to set the shortname for Disqus. Please set it in _config.yml.