LLM 名词解释

LLM

LLM(Large Language Model,大规模语言模型)是基于深度学习技术构建的人工智能模型,由具有数以亿计参数的人工神经网络组成,通过自监督学习或半监督学习在大量无标签文本上进行训练。

LLM 于2018年左右出现,并在各种任务上表现出色。这改变了自然语言处理研究的重点,使其不再是以训练特定任务的专门监督模型为范式。

AIGC

AIGC(AI-Generated Content,AI 生成内容)通过对已有数据进行学习和模式识别,以适当的泛化能力生成相关内容的技术。

AIGC 技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC 可以根据输入的条件或指导,生成与之相关的内容。

Prompt

Prompt(提示词)是指给定的一段文本或问题,用于引导和启发人工智能模型生成相关的回答或内容。 Prompt 可以设定任务目标、要求模型回答特定问题、完成特定任务,或者给模型提供背景信息以进行更准确的生成。

需要注意的是,Prompt 本身并不包含问题的答案或具体的内容,它只是一种指导模型生成文本的方式。模型的输出仍然是基于其训练数据和学习到的模式进行生成的。

GPT

GPT(Generative Pre-trained Transformer,生成型预训练变换模型)是一种基于深度学习的大规模语言模型。最初由 OpenAI 开发,旨在通过训练模型预测下一个单词或字符来学习自然语言的统计规律和上下文信息。

GPT 使用 Transformer 模型架构,它由多个编码器-解码器堆叠而成,通过自注意力机制来处理输入序列和生成输出。模型的训练采用了无监督学习的方法,使用大量的文本数据进行预训练,使模型具备了广泛的语言理解和生成能力。

Token

Token 是指在自然语言处理和文本处理任务中,将文本分解成较小单元的基本单位。这些单元可以是单词、字符、子词或其他语言单位,具体取决于任务和处理方式。

分割文本成 Token 有助于进行文本处理和分析,例如词频统计、语言模型训练、机器翻译、文本分类等任务。将文本分解成 Token 的过程可以提供更细粒度的语义信息,并为模型理解和处理文本提供基础。

LoRA

LoRA(Low-Rank Adaptation of LLM,即插件式的微调)用于对大语言模型进行个性化和特定任务的定制。LoRA 通过将模型的权重矩阵分解为低秩的近似矩阵,降低了参数空间的复杂性,从而减少了微调的计算成本和模型存储需求。

传统的微调方法通常需要在整个模型上进行参数优化,这可能会导致训练时间长、计算资源消耗大,并且需要大量的标注数据。而低秩适应方法则提供了一种更高效的微调策略,基于对原始模型的分析,选择性地微调模型的某些部分,使其更适应于特定的任务或数据。

矢量数据库

矢量数据库(Vector Database)是一种用于存储和检索矢量数据的数据库。矢量数据库可以存储和管理大量的矢量数据,例如图像、视频、音频、文本等,同时提供高效的检索功能。

矢量数据库通常基于矢量搜索引擎实现,它可以将矢量数据转换为向量表示,并将其存储在数据库中。在查询时,矢量搜索引擎可以将查询数据转换为向量表示,并在数据库中进行相似度匹配,从而找到与之最相似的数据。

数据蒸馏

数据蒸馏(Knowledge Distillation)旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似

数据蒸馏技术在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。它可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。