文件驱动 · File-Driven
多 Agent 协作 · 8 Agents
全流程可追溯 · Reproducible

一个文件驱动的 AI 技术自动化组织

每个 Agent 靠读取固定路径的 agent.mdrunbook.mdmemory/、 共享协议与工作流水线自主上岗协作,覆盖「前沿模型研究 → 本地模型部署 → CV 模型训练 → 工程化交付」的完整闭环。

前沿模型应用研究 本地小模型部署 / 调用 / 评测 / 微调 CV 工程模型标注训练迭代 澄清后自主执行的工程交付

🎯 系统能干什么

四条能力主线,由不同 Agent 主责,遇到跨域需求时自动组合协作。

🔭

前沿模型研究

追踪最新模型 / 论文 / 开源仓库,产出可复现的本地部署方案与调用示例。

⚙️

本地模型部署

选型 → 部署 → 调用 → 评测 → 微调,输出 model card 与可重跑的启动 / 评测脚本。

🏷️

CV 训练自动化

X-AnyLabeling 标注、模型选型、训练验证、失败案例分析、循环迭代直到达标。

🚀

工程化交付

把行业需求转成可运行的软件 / 算法 / 服务,含 3D 打印路径规划等具体场景。

🏢 组织架构

三层结构:执行协调层负责路由与质量门禁,技术方向层负责专业产出,支撑职能层负责数据与上线保障。

核心协调层
chief-technology-orchestrator

策略拆解、任务路由、质量门禁执行、最终交付整合。

requirements-dialogue-agent

把模糊目标澄清为可执行的任务简报(objective / constraints / success criteria)。

automation-executor-agent

在获得审批范围后自动执行多步计划,记录证据与偏差。

技术方向层
research-local-model-agent

模型前沿研究 → 本地部署 / 调用 / 评测 / 微调,产出 model card。

cv-training-automation-agent

X-AnyLabeling 标注 + 模型选型 + 训练验证 + 迭代优化。

engineering-delivery-agent

行业需求 → 架构设计 → 实现验证 → 交付报告。

支撑职能层
data-governance-agent

数据集卡片、标注规范、隐私检查、数据血缘、标注质量。

mlops-validation-agent

可复现性、模型就绪度、部署验证、监控与回滚方案。

🔗 典型协作路径

agents/AGENT_INDEX.md 中登记的四种标准协作链路。

本地模型应用
requirements-dialogue-agent chief-technology-orchestrator research-local-model-agent mlops-validation-agent engineering-delivery-agent
CV 训练项目
requirements-dialogue-agent data-governance-agent cv-training-automation-agent mlops-validation-agent engineering-delivery-agent
工程应用交付
requirements-dialogue-agent chief-technology-orchestrator engineering-delivery-agent (+research / cv 按需接入)
澄清后自主执行
requirements-dialogue-agent chief-technology-orchestrator ✅ 审批 automation-executor-agent 验证 owner 最终交付

🛠️ 工作流水线(实现方法)

每条流水线定义在 pipelines/*.md,包含输入、分步流程、必需产出与质量门禁。

1. 目标未知 → 主动澄清

识别缺失的目标、约束、数据与验收标准,持续提问直到满足 Gate 0。

owner: requirements-dialogue-agent

2. 任务成型

把澄清结果转成任务文件,选定 owner agent 与验证方式。

owner: chief-technology-orchestrator

3. 审批检查点

任务计划必须包含允许文件 / 命令 / 外部服务 / 最大时长开销 / 禁止动作 / 大产物处理策略。

4. 自动化执行

按序执行、记录动作与偏差;范围变化或风险升高时暂停;大文件按路径引用而非整体加载。

owner: automation-executor-agent

5. 验证与交付

专项 agent 或 MLOps 验证输出,orchestrator 打包最终响应(默认中文)。

6. 经验回流

可复用经验写入 memory/lessons_learned.md,反复出现的问题回填到流水线 / runbook / 质量门禁。

1. 数据集接入

建立数据集卡片,检查数量、分布、质量、重复与隐私风险,定义切分策略。

2. 标签方案与标注计划

定义类别、属性、边界情况、负样本,编写标注指南,选择 X-AnyLabeling 辅助模式。

3. X-AnyLabeling 标注循环

导入数据 → 配置标签 → 模型辅助标注 → 导出 YOLO/COCO/VOC/掩码 → 标签校验。

4. 模型选型

按任务类型选模块与框架(检测/分割/OCR/异常/姿态/跟踪/多模态),记录选型理由与可行性对比。

5. 训练

版本化配置、复制进 run 目录,记录日志 / checkpoint / 环境 / 随机种子 / 源码 commit。

6. 验证设计

面向工程场景设计验证用例,衡量任务专属指标,收集失败案例与可视化对比。

7. 迭代

分析失败簇,决定重标 / 增强 / 换模型 / 调参;用 iteration_controller.py 判断是否继续、并行对比或停止。

8. 交接

产出验证报告与部署候选包,通知 mlops-validation-agent 做就绪检查。

1. 澄清场景

确定任务类型(生成/嵌入/VLM/语音/…)与部署目标,读取历史经验与模型卡片。

2. 候选研究

汇总模型 / 工具 / 论文 / 仓库 / 基准 / License,区分稳定与实验性选项,记录信源覆盖情况。

3. 选定本地策略

确定模型规模与量化方式,选运行时(Ollama/llama.cpp/vLLM/…),判断是否需要微调。

4. 部署与调用

编写最小部署步骤与调用示例,校验下载产物完整性,产出可重启的本地服务脚本。

5. 评测

设计任务专属评测用例,对比 baseline / 候选 / 微调模型,记录指标、延迟、显存与失败模式。

6. 微调或适配

按需使用 LoRA/QLoRA/Prompt Tuning/蒸馏/RAG,保留数据血缘与训练配置。

7. 交接

shared/model_registry/ 建立 model card,给工程或 CV 团队写集成说明。

8-9. 复盘与迭代控制

经验回写 memory;达到预算上限、收益停滞或策略重复时停止自动迭代。

1. 澄清行业目标

明确系统要决策 / 生成 / 控制 / 检测 / 优化的对象,捕获约束与失败代价。

2. 工程问题建模

定义实体 / 变量 / 约束 / 目标函数,判断规则 / 优化 / 仿真 / ML / CV / LLM / 混合方案。

3. 设计实现方案

选择架构(脚本/服务/桌面工具/Web/插件/流水线),定义接口与数据格式。

4. 构建与验证

实现最小可行方案,补充测试/仿真/基准用例,记录限制与假设;未达标时用迭代控制器决策。

5. 示例场景:3D 打印路径规划

输入几何/打印机约束/材料;目标强度、连续性、减少空跑;方法涵盖切片、路径优化、G-code 生成。

6. 交接

交付报告 + 运行说明 + 验收测试证据 + 遗留风险登记。

✅ 质量门禁(Gate 0 → Gate 5)

来自 protocols/quality_gates.md,任何流水线在关键节点前都要过这些硬性检查。

GATE 0

目标已澄清

  • 目标明确、成功标准可衡量
  • 约束已知或标记为假设
  • 已记录 workflow 选择
GATE 1

计划就绪

  • 工作拆解存在
  • owner agent 已指定
  • 风险等级已标注
GATE 1.5 / 1.6

信源覆盖 / 源复用检查

  • 检索来源与失败上报方式已定义
  • 模型/工具下载前必须先 preflight
GATE 2

数据就绪

  • 数据集卡片存在
  • License / 隐私风险已检查
  • 切分策略已文档化
GATE 3

实验就绪

  • baseline 与备选已列出
  • 指标与停止条件已定义
  • 迭代预算已设置
GATE 4

验证通过

  • 验收测试已执行
  • 失败案例已记录
  • 可复现步骤存在
GATE 5

部署就绪

  • 打包与依赖已文档化
  • 监控 / 回滚方案存在
  • 安全与隐私已复核

🧩 技术实现

纯文件驱动:无中心数据库,Agent 的"上下文"就是它读到的那些 Markdown / JSON / YAML 文件,加上一组 Python 工具脚本。

tech/ ├── agents/<agent-name>/ │ ├── agent.md # 角色定义/触发条件/职责 │ ├── runbook.md # 分步操作流程 │ ├── memory/ # 状态/任务台账/决策日志 │ └── workspace/ │ ├── inbox/ # 待处理任务 │ └── outbox/ # 交付产物 ├── protocols/ # 契约、生命周期、质量门禁 ├── pipelines/ # 角色工作流水线 ├── skills/ # 可路由的复用工作流 ├── templates/ # 任务/报告标准模板 ├── tools/ # Python 自动化脚本 ├── projects/<project_id>/ # 实际项目文件与产物 └── shared/ ├── knowledge_base/ model_sources/ model_registry/ └── datasets/ tool_sources/ experiments/
脚本作用
agent_context.py打印某个 agent 的完整上岗上下文
init_memory.py为所有 agent 初始化缺失的记忆文件
task_runner.py扫描 inbox,校验字段与审批范围,写中文预检报告
iteration_controller.py决定并行对比 / 继续迭代 / 更广研究 / 停止
create_project.py按类型自动创建标准项目骨架并入队任务
model_source_registry.py模型/工具源码 preflight → 复用或登记
cv/run_cv_pipeline.pyCV 流水线 MVP:dry-run 默认,--execute 才真正训练
check_structure.py校验目录结构是否符合规范

🧠 记忆系统与安全边界

每个 agent 拥有独立记忆目录,保证跨会话状态可追溯;同时有明确的"不可逆动作"红线。

  • current_state.md当前状态快照
  • task_ledger.md任务台账
  • open_tasks.md未完成任务
  • decision_log.md关键决策记录
  • lessons_learned.md可复用经验
  • handoff_log.md交接记录

🚫 操作红线

在任务文件出现明确审批记录之前,任何 agent 不得执行:

不可逆操作 外部部署 付费 API 调用 破坏性文件系统操作 长时间训练任务

所有对人交付内容(报告 / 交接 / 总结)默认使用中文,技术标识符(命令、路径、模型名、commit)保留原文。