设计 LLM 效果验证实验

对于 LLM 而言,在进一步决定开发应用之前,我们需要对 LLM 的效果进行验证。验证的方式有很多种,例如:

示例格式

  • 研究目的:明确研究的目标和方向,阐述研究的意义和价值。
  • 研究背景:介绍研究领域的相关背景和现状,说明研究的必要性。
  • 研究问题:明确需要解决的问题,阐明研究的主要内容和目标。
  • 研究方法:阐述研究方法和实验的具体设计,包括实验的流程、步骤、数据采集和处理方法等。
  • 实验过程:详细描述实验的过程和实验结果,包括实验设计、数据采集、数据分析和实验结果等。
  • 结果分析:对实验结果进行分析和解释,包括实验结果的统计分析和数据可视化。
  • 结论和启示:总结实验结果,得出结论并提出启示和建议,指出实验的贡献和局限性。

ChatGPT + Copilot 端到端示例

研究目的:ChatGPT + Copilot 在企业应用中,从需求、编码、测试端到端的辅助能力和提效作用评估

研究过程:

  • 第1步:选择一个真实的项目需求: Thoughtworks OKR 工具
  • 第2步:使用 ChatGPT 来完成领域术语定义和竞品分析启发,再到MVP特性设计启发
  • 第3步:使用 ChatGPT 来完成特性的需求分析,展示可视化的用户旅程、功能需求拆分及格式化编写、验收标准定义
  • 第4步:尝试使用 ChatGPT 来把验收标准转化为UML设计图
  • 第5步:使用 ChatGPT 生成 API,在通过Copilot 生成代码
  • 第6步:...
  • 第x步:使用 ChatGPT 生成发布文档

研究结论:

辅助能力评估: 整体提升 20%~30% 效率。其中重复性工作,如需求格式、代码编写、测试用例、单元测试提升较为明显。

局限性:

  • 每次反馈结果都不一致,需要人工来判断这个结果是否“合理/有用”, 能否进入下一步;
  • 需要结合经验迭代优化给出更细的细节要求提示,生成结果才会更好;