设计 LLM 效果验证实验

对于 LLM 而言，在进一步决定开发应用之前，我们需要对 LLM 的效果进行验证。验证的方式有很多种，例如：

示例格式

研究目的：明确研究的目标和方向，阐述研究的意义和价值。
研究背景：介绍研究领域的相关背景和现状，说明研究的必要性。
研究问题：明确需要解决的问题，阐明研究的主要内容和目标。
研究方法：阐述研究方法和实验的具体设计，包括实验的流程、步骤、数据采集和处理方法等。
实验过程：详细描述实验的过程和实验结果，包括实验设计、数据采集、数据分析和实验结果等。
结果分析：对实验结果进行分析和解释，包括实验结果的统计分析和数据可视化。
结论和启示：总结实验结果，得出结论并提出启示和建议，指出实验的贡献和局限性。

ChatGPT + Copilot 端到端示例

研究目的：ChatGPT + Copilot 在企业应用中，从需求、编码、测试端到端的辅助能力和提效作用评估

研究过程：

第1步：选择一个真实的项目需求: Thoughtworks OKR 工具
第2步：使用 ChatGPT 来完成领域术语定义和竞品分析启发，再到MVP特性设计启发
第3步：使用 ChatGPT 来完成特性的需求分析，展示可视化的用户旅程、功能需求拆分及格式化编写、验收标准定义
第4步：尝试使用 ChatGPT 来把验收标准转化为UML设计图
第5步：使用 ChatGPT 生成 API，在通过Copilot 生成代码
第6步：...
第x步：使用 ChatGPT 生成发布文档

研究结论：

辅助能力评估：整体提升 20%~30% 效率。其中重复性工作，如需求格式、代码编写、测试用例、单元测试提升较为明显。

局限性：

每次反馈结果都不一致，需要人工来判断这个结果是否“合理/有用”, 能否进入下一步；
需要结合经验迭代优化给出更细的细节要求提示，生成结果才会更好；
…