@tom_doerr: 从原始数据生成LLM就绪的数据集 https://github.com/OpenDCAI/DataFlow…
摘要
DataFlow是一个开源工具,提供可视化、低代码的管道,用于从原始数据生成、清洗和准备高质量的LLM训练数据集。它包含一篇arXiv上的技术报告。
从原始数据生成LLM就绪的数据集
https://t.co/44rVK6cZS9 https://t.co/RNVrJICJxa
查看缓存全文
缓存时间: 2026/05/16 21:22
🛠️ 6. 管道 (点击展开)
🛠️ 8.2 其他管道结果 (点击展开)
相似文章
DataFlow:面向数据为中心AI时代的统一数据准备与工作流自动化的LLM驱动框架
DataFlow是一个LLM驱动的框架,用于自动化数据准备和工作流工程,具备近200个可复用算子和六个领域通用流程,可在数学、代码和Text-to-SQL等任务上提升LLM性能。
@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…
由 mlabonne 整理的大语言模型指令与推理数据集列表,包含数据集特征、许可证及用例详情。
@tom_doerr:通过无代码 GUI 微调大型语言模型 https://github.com/h2oai/h2o-llmstudio…
H2O LLM Studio 是一个开源框架和无代码图形界面,可简化大型语言模型的微调过程,支持 LoRA、DPO 等技术,并能与 Hugging Face 集成。
@tom_doerr: 通过自学习智能体实现数据标注自动化 https://github.com/HumanSignal/Adala…
Adala 是一个开源框架,用于构建自主数据标注智能体,这些智能体通过与基准数据集和 LLM 运行时交互,迭代式地学习技能。
@tom_doerr: 将研究论文转换为可编辑的图表和幻灯片 https://github.com/OpenDCAI/Paper2Any…
Paper2Any 是一款开源 AI 工具,可将研究论文转换为可编辑的图表、技术路线图和幻灯片,支持通用文件格式和自定义样式。