tech · 文件驱动的 AI 技术自动化组织系统

🎯 系统能干什么

四条能力主线，由不同 Agent 主责，遇到跨域需求时自动组合协作。

🔭

前沿模型研究

追踪最新模型 / 论文 / 开源仓库，产出可复现的本地部署方案与调用示例。

⚙️

本地模型部署

选型 → 部署 → 调用 → 评测 → 微调，输出 model card 与可重跑的启动 / 评测脚本。

🏷️

CV 训练自动化

X-AnyLabeling 标注、模型选型、训练验证、失败案例分析、循环迭代直到达标。

🚀

工程化交付

把行业需求转成可运行的软件 / 算法 / 服务，含 3D 打印路径规划等具体场景。

🏢 组织架构

三层结构：执行协调层负责路由与质量门禁，技术方向层负责专业产出，支撑职能层负责数据与上线保障。

核心协调层

chief-technology-orchestrator

策略拆解、任务路由、质量门禁执行、最终交付整合。

requirements-dialogue-agent

把模糊目标澄清为可执行的任务简报（objective / constraints / success criteria）。

automation-executor-agent

在获得审批范围后自动执行多步计划，记录证据与偏差。

技术方向层

research-local-model-agent

模型前沿研究 → 本地部署 / 调用 / 评测 / 微调，产出 model card。

cv-training-automation-agent

X-AnyLabeling 标注 + 模型选型 + 训练验证 + 迭代优化。

engineering-delivery-agent

行业需求 → 架构设计 → 实现验证 → 交付报告。

支撑职能层

data-governance-agent

数据集卡片、标注规范、隐私检查、数据血缘、标注质量。

mlops-validation-agent

可复现性、模型就绪度、部署验证、监控与回滚方案。

🔗 典型协作路径

agents/AGENT_INDEX.md 中登记的四种标准协作链路。

本地模型应用

requirements-dialogue-agent→ chief-technology-orchestrator→ research-local-model-agent→ mlops-validation-agent→ engineering-delivery-agent

CV 训练项目

requirements-dialogue-agent→ data-governance-agent→ cv-training-automation-agent→ mlops-validation-agent→ engineering-delivery-agent

工程应用交付

requirements-dialogue-agent→ chief-technology-orchestrator→ engineering-delivery-agent (+research / cv 按需接入)

澄清后自主执行

requirements-dialogue-agent→ chief-technology-orchestrator→ ✅ 审批→ automation-executor-agent→ 验证 owner→ 最终交付

🛠️ 工作流水线（实现方法）

每条流水线定义在 pipelines/*.md，包含输入、分步流程、必需产出与质量门禁。

1. 目标未知 → 主动澄清

识别缺失的目标、约束、数据与验收标准，持续提问直到满足 Gate 0。

owner: requirements-dialogue-agent

2. 任务成型

把澄清结果转成任务文件，选定 owner agent 与验证方式。

owner: chief-technology-orchestrator

3. 审批检查点

任务计划必须包含允许文件 / 命令 / 外部服务 / 最大时长开销 / 禁止动作 / 大产物处理策略。

4. 自动化执行

按序执行、记录动作与偏差；范围变化或风险升高时暂停；大文件按路径引用而非整体加载。

owner: automation-executor-agent

5. 验证与交付

专项 agent 或 MLOps 验证输出，orchestrator 打包最终响应（默认中文）。

6. 经验回流

可复用经验写入 memory/lessons_learned.md，反复出现的问题回填到流水线 / runbook / 质量门禁。

1. 数据集接入

建立数据集卡片，检查数量、分布、质量、重复与隐私风险，定义切分策略。

2. 标签方案与标注计划

定义类别、属性、边界情况、负样本，编写标注指南，选择 X-AnyLabeling 辅助模式。

3. X-AnyLabeling 标注循环

导入数据 → 配置标签 → 模型辅助标注 → 导出 YOLO/COCO/VOC/掩码 → 标签校验。

4. 模型选型

按任务类型选模块与框架（检测/分割/OCR/异常/姿态/跟踪/多模态），记录选型理由与可行性对比。

5. 训练

版本化配置、复制进 run 目录，记录日志 / checkpoint / 环境 / 随机种子 / 源码 commit。

6. 验证设计

面向工程场景设计验证用例，衡量任务专属指标，收集失败案例与可视化对比。

7. 迭代

分析失败簇，决定重标 / 增强 / 换模型 / 调参；用 iteration_controller.py 判断是否继续、并行对比或停止。

8. 交接

产出验证报告与部署候选包，通知 mlops-validation-agent 做就绪检查。

1. 澄清场景

确定任务类型（生成/嵌入/VLM/语音/…）与部署目标，读取历史经验与模型卡片。

2. 候选研究

汇总模型 / 工具 / 论文 / 仓库 / 基准 / License，区分稳定与实验性选项，记录信源覆盖情况。

3. 选定本地策略

确定模型规模与量化方式，选运行时（Ollama/llama.cpp/vLLM/…），判断是否需要微调。

4. 部署与调用

编写最小部署步骤与调用示例，校验下载产物完整性，产出可重启的本地服务脚本。

5. 评测

设计任务专属评测用例，对比 baseline / 候选 / 微调模型，记录指标、延迟、显存与失败模式。

6. 微调或适配

按需使用 LoRA/QLoRA/Prompt Tuning/蒸馏/RAG，保留数据血缘与训练配置。

7. 交接

在 shared/model_registry/ 建立 model card，给工程或 CV 团队写集成说明。

8-9. 复盘与迭代控制

经验回写 memory；达到预算上限、收益停滞或策略重复时停止自动迭代。

1. 澄清行业目标

明确系统要决策 / 生成 / 控制 / 检测 / 优化的对象，捕获约束与失败代价。

2. 工程问题建模

定义实体 / 变量 / 约束 / 目标函数，判断规则 / 优化 / 仿真 / ML / CV / LLM / 混合方案。

3. 设计实现方案

选择架构（脚本/服务/桌面工具/Web/插件/流水线），定义接口与数据格式。

4. 构建与验证

实现最小可行方案，补充测试/仿真/基准用例，记录限制与假设；未达标时用迭代控制器决策。

5. 示例场景：3D 打印路径规划

输入几何/打印机约束/材料；目标强度、连续性、减少空跑；方法涵盖切片、路径优化、G-code 生成。

6. 交接

交付报告 + 运行说明 + 验收测试证据 + 遗留风险登记。

✅ 质量门禁（Gate 0 → Gate 5）

来自 protocols/quality_gates.md，任何流水线在关键节点前都要过这些硬性检查。

GATE 0

目标已澄清

目标明确、成功标准可衡量
约束已知或标记为假设
已记录 workflow 选择

GATE 1

计划就绪

工作拆解存在
owner agent 已指定
风险等级已标注

GATE 1.5 / 1.6

信源覆盖 / 源复用检查

检索来源与失败上报方式已定义
模型/工具下载前必须先 preflight

GATE 2

数据就绪

数据集卡片存在
License / 隐私风险已检查
切分策略已文档化

GATE 3

实验就绪

baseline 与备选已列出
指标与停止条件已定义
迭代预算已设置

GATE 4

验证通过

验收测试已执行
失败案例已记录
可复现步骤存在

GATE 5

部署就绪

打包与依赖已文档化
监控 / 回滚方案存在
安全与隐私已复核

🧩 技术实现

纯文件驱动：无中心数据库，Agent 的"上下文"就是它读到的那些 Markdown / JSON / YAML 文件，加上一组 Python 工具脚本。

tech/ ├── agents/<agent-name>/ │ ├── agent.md # 角色定义/触发条件/职责 │ ├── runbook.md # 分步操作流程 │ ├── memory/ # 状态/任务台账/决策日志 │ └── workspace/ │ ├── inbox/ # 待处理任务 │ └── outbox/ # 交付产物 ├── protocols/ # 契约、生命周期、质量门禁 ├── pipelines/ # 角色工作流水线 ├── skills/ # 可路由的复用工作流 ├── templates/ # 任务/报告标准模板 ├── tools/ # Python 自动化脚本 ├── projects/<project_id>/ # 实际项目文件与产物 └── shared/ ├── knowledge_base/ model_sources/ model_registry/ └── datasets/ tool_sources/ experiments/

脚本	作用
`agent_context.py`	打印某个 agent 的完整上岗上下文
`init_memory.py`	为所有 agent 初始化缺失的记忆文件
`task_runner.py`	扫描 inbox，校验字段与审批范围，写中文预检报告
`iteration_controller.py`	决定并行对比 / 继续迭代 / 更广研究 / 停止
`create_project.py`	按类型自动创建标准项目骨架并入队任务
`model_source_registry.py`	模型/工具源码 preflight → 复用或登记
`cv/run_cv_pipeline.py`	CV 流水线 MVP：dry-run 默认，--execute 才真正训练
`check_structure.py`	校验目录结构是否符合规范

🧠 记忆系统与安全边界

每个 agent 拥有独立记忆目录，保证跨会话状态可追溯；同时有明确的"不可逆动作"红线。

current_state.md当前状态快照
task_ledger.md任务台账
open_tasks.md未完成任务
decision_log.md关键决策记录
lessons_learned.md可复用经验
handoff_log.md交接记录

🚫 操作红线

在任务文件出现明确审批记录之前，任何 agent 不得执行：

不可逆操作外部部署付费 API 调用破坏性文件系统操作长时间训练任务

所有对人交付内容（报告 / 交接 / 总结）默认使用中文，技术标识符（命令、路径、模型名、commit）保留原文。