LLM(大语言模型, Large Language Model):基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,能够进行复杂对话、文本创作等任务。
AGI(通用人工智能, Artificial General Intelligence):这是AI研究的理想目标,追求创造能像人类一样学习新技能、解决广泛问题的智能体,目前仍处于理论探索和初步实践阶段。
AIGC (人工智能生成内容): 利用AI技术生成的各种内容,从文本、图像到视频,利用算法创造新颖、个性化的内容,如AI艺术画作或定制文章。
Prompt(提示词):在模型中用于引导模型生成特定类型输出的上下文信息或指令,例如,告诉模型“写一篇科幻故事”。
提示工程(Prompt Engineering):设计和优化输入提示以获得所需模型输出的过程,涉及精心设计输入提示,以优化模型输出的准确性、创意或特定风格,是提高AI大模型响应质量的关键策略。
多模态(Multimodal):文本、图像、音频等都是一种模态,多模态指能够处理文本、图像、音频等多种类型数据的模型,实现对多模态信息的综合理解和分析。
推理(Inference):大模型的推理(Inference)是指使用已经训练好的模型进行实际应用,生成预测或输出结果的过程。例如:大模型根据问题生成答案,根据文本描述生成图片等。
涌现(Emergence):指的是系统中新的性质、模式或行为在更简单的组件相互作用下自发形成的现象。
对齐:AI价值对齐是指让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。
Token:通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的 token。例如,“你好,世界!”会被分解为“你”、“好”、“,”、“世界”和“!”这样的token,便于机器理解和处理。
智能体(Agent):在环境中感知、思考并采取行动的自主AI系统。
世界模型:指AI系统内部构建的对现实世界的抽象认知模型,用于预测、规划和决策,是实现高级人工智能的关键组成部分。
Scaling Law:指的是在机器学习中,模型性能随其规模增大(如参数数量、数据量)而提高的现象,是指导模型设计和资源分配的重要原则。
大模型幻觉:幻觉是指大型语言模型生成的内容看似合理但实际上不准确或虚构的信息。原因是尽管模型可以生成符合语言结构的文本,但它们并不具备真正的理解能力,只是基于概率生成下一个词语。
Copilot:AI辅助工具的代名词,例如Github Copilot能够辅助程序员编程,Office Copilot能够辅助编写文档、制作PPT等。参见:AI智能体的6种形态
具身智能:拥有物理实体的智能体(如机器人),通过与环境的互动学习和适应,实现更接近生物体的智能表现。
机器学习 (Machine Learning, ML): AI的子领域,让计算机能够从经验中学习并提升任务执行能力。就像一个孩子通过不断尝试和反馈学会骑自行车,ML模型通过分析大量数据和调整内部规则,逐步提高其预测或决策的准确性。
深度学习(Deep Learning):这是机器学习的一个分支,通过构造多层神经网络来模拟人类大脑的深层处理机制,能够自动提取数据中的复杂特征,比如在人脸识别中区分眼睛、鼻子等细微特征,进而实现高度精确的分类或预测。
Transformer:这是一种革命性的神经网络架构,通过自注意力机制有效分析序列数据,解决了长距离依赖问题,是大模型的核心架构。
注意力机制(Attention Mechanism):使模型能聚焦输入序列中重要部分,通过权重分配提升处理序列数据的能力,增强模型理解和生成的精确度。
自注意力机制 (Self-Attention):Transformer模型的基石,允许模型在处理序列时考虑所有位置之间的依赖,提升了序列理解和生成的效率和质量。
多头注意力(Multi-head Attention):Transformer 模型中的一个关键机制。它通过并行计算多个注意力机制来捕捉输入数据的不同方面或特征。在自然语言处理中,多头注意力可以帮助模型同时关注句子中的多个关键单词和短语,从而更准确地理解句子的语义和结构。
神经网络(Neural Network):神经网络是人工智能领域的核心概念之一,模仿人脑的结构和功能,用来解决复杂的计算和模式识别问题。它们由许多称为“神经元”或“节点”的简单计算单元组成,这些单元互相连接形成网络。每个神经元对输入信息做简单运算后,将信号传给下一个神经元,层层传递,最终完成复杂的计算任务,如图像识别或语音理解。
CNN(卷积神经网络, Convolutional Neural Network):特别设计用于图像识别的“视觉侦探”。它通过一系列“卷积层”工作,这些层能够自动检测图像中的边缘、纹理等基础特征,并逐渐构建出更复杂的图像理解,比如识别一只猫是否在图片中,即使它的姿态各异。
RNN(循环神经网络, Recurrent Neural Network):时间序列数据的“记忆大师”。与传统神经网络不同,RNN具有循环结构,使其能够处理如语言、股票价格等序列数据,在每个时间点考虑之前的信息,这使得它在预测未来事件或理解文本上下文时非常有效。
长短期记忆网络(LSTM, Long Short-Term Memory):RNN家族中的“马拉松选手”。LSTM通过特殊的门控机制解决了长期依赖问题,即它能记住序列中的重要信息而忽略不重要的细节,这对于处理如长句理解、翻译等需要长时间跨度记忆的任务至关重要。
GPT(Generative Pre-trained Transformer):作为另一款基于Transformer的模型,GPT专注于生成连贯、有创意的文本,从文章写作到故事构思,它都能根据初始提示产出令人惊叹的续篇,展示了强大的语言生成能力。
BERT(Bidirectional Encoder Representations from Transformers):自然语言处理领域的“双向翻译官”。BERT利用Transformer架构学习文本的双向上下文信息,意味着它能同时理解一个词在句子前后的含义,从而在问答、情感分析等任务中表现出色。
知识蒸馏(Knowledge Distillation):通过让小模型学习大模型的决策过程和输出,就像一位经验丰富的导师将其知识浓缩传授给徒弟,从而在减少计算资源的同时保持高性能。
预训练 (Pre-training):在特定任务的数据上先训练模型,获取一般语言知识,之后再针对具体任务微调。
微调 (Fine-tuning):在预训练模型的基础上,针对特定任务进行额外训练的过程。
SFT(监督微调,Supervised Fine-Tuning):是指在预训练大型语言模型之后,使用带有明确标注的数据对模型进行进一步的训练,以使其在特定任务上表现更好,比如回答问题、翻译文本、生成代码等。
LoRA(Low-Rank Adaptation):一种用于微调大型预训练模型的方法,其主要目标是降低微调过程中所需的计算资源和存储成本,同时保持模型性能。
参数(Parameter):是指模型中的可训练变量,这些变量决定了模型的行为和性能。具体来说,参数通常是神经网络中的权重和偏置,它们在训练过程中通过梯度下降等优化算法进行更新。参数量是衡量模型规模的一个重要指标。如Llama 7B,表示拥有70亿参数量。
权重(Weights):连接神经元的权重是最常见的参数。每个权重决定了一个输入信号对输出信号的影响程度。
偏置(Biases):偏置是另一个重要的参数,用于调整神经元的激活函数,使得模型能够更好地拟合数据。
超参数 (Hyperparameter):在机器学习和深度学习模型开始训练之前设置的参数值,而非在训练过程中通过优化算法学习得到的。超参数用于控制模型的构建和学习过程,比如决定模型的复杂度、学习速率、正则化程度等。由于超参数不是从训练数据中直接学习而来,选择合适的超参数值对模型的性能至关重要。
生成模型(Generative Model):这类模型能够基于已知数据模式生成新的数据实例,包括文本、图像等,展现创造性输出能力,如GPT-3。
扩散模型(Diffusion Model):这是一种创意十足的生成模型,想象一下将一滴墨水在水中慢慢扩散开来,最终形成图案的过程,但这里的“墨水”变成了数据,如图像、声音或文本。通过模拟物理世界中的扩散现象,它从随机噪声开始,一步步“澄清”出清晰的内容,尤其擅长创造细腻的视觉艺术和复杂的数据结构。
模型压缩 (Model Compression): 通过技术如量化、剪枝减小模型体积,不牺牲太多性能的前提下提高部署效率和降低资源消耗。
模型量化(Model Quantization):减少模型存储和计算需求的技术,通过降低参数精度,如将32位浮点数转为8位整数,实现模型瘦身。
Token:通常指的是文本或数据中的一个基本单元或符号,在自然语言处理中,单词是最常见的 token。例如,“你好,世界!”会被分解为“你”、“好”、“,”、“世界”和“!”这样的token,便于机器理解和处理。
Tokenizer:用于将连续的文本序列(如句子或段落)分割成更小单位的工具或算法,例如单词、短语或符号,这些单元通常称为 "token"。
Embedding(嵌入):将文本转化数值向量的技术,便于机器处理,例如,将“猫”表示为一个100 维的向量 [0.21, -0.34, 0.65, ...],这个向量捕捉了“猫”的语义信息。
词嵌入(Word Embedding):将单词表示为低维向量的方法,为每个单词赋予一个多维的数值身份,如同单词的“DNA”。这种表示方式能让模型理解单词之间的相似性和差异,比如“国王”和“女王”在向量空间中会很接近。
句子嵌入(Sentence Embedding):将句子表示为低维向量的方法。如果说词嵌入是单词的指纹,句子嵌入就是整句的肖像。它将整个句子压缩成一个固定长度的向量,保留句子的主要意义,使得模型能比较不同句子间的语义相似性。
上下文嵌入(Contextual Embedding):根据上下文动态生成嵌入向量的方法。与静态词嵌入不同,上下文嵌入能捕捉“银行”在“河岸上的银行”和“我去了银行存钱”中不同的含义,为自然语言处理任务带来更精细的理解层次。
上下文窗口 (Context Window):语言模型处理文本时考虑的前后词元范围,用于捕捉文本的语境信息。较大的窗口提供更丰富语义,帮助生成连贯、准确的文本,避免歧义,改善上下文依赖处理。例如,GPT-4 Turbo的128k Token上下文窗口让它能生成高度相关和细腻的回复。
Word2Vec:通过神经网络训练的词嵌入模型,将词汇转化为富含语义的向量形式,使得机器能够“感知”到词语间微妙的关系和相似度。
seq2seq:Seq2Seq是一种编码器-解码器结构的神经网络模型,用于处理序列到序列的学习任务,如机器翻译、文本摘要。它首先将输入序列编码为固定长度的向量,然后解码该向量生成输出序列,可结合注意力机制处理长序列问题。
零样本学习(Zero-shot Learning):无需特定训练就可“即插即用”的提示工程技术,模型展示出令人惊异的泛化能力,能在未见过的任务上直接应用,展现了学习的广度和灵活性。
小样本学习(Few-shot Learning):在极少数示例的引导下快速掌握新技能的学习模式,它要求模型具备高度的归纳能力和学习效率,能在少量实例中捕捉规律并应用到新情境中。
自监督学习(Self-supervised Learning):使用数据本身生成监督信号进行训练的方法。
无监督学习(Unsupervised Learning):无需标签数据进行模型训练的方法。
有监督学习(Supervised Learning):使用标注数据进行模型训练的方法。
半监督学习(Semi-supervised Learning):结合少量标注数据和大量未标注数据进行训练的方法,既利用了精确指导的优势,又发挥了大数据的潜力,追求高效与准确的平衡。
强化学习(Reinforcement Learning):通过奖励和惩罚机制使模型学习采取何种行动以最大化某种累积奖励。
奖励模型(Reward Model):在机器学习和强化学习中,是用于评估智能体行为的模型。它定义了智能体在给定环境中的行为是否良好,通过给出正面或负面的奖励信号来指导智能体学习和优化其策略,从而实现特定目标或任务。
RLHF(带有人类反馈的强化学习,Reinforcement Learning with Human Feedback):这种方法结合了强化学习和人类反馈,以训练智能体更好地完成任务。通过利用人类的评价和指导,RLHF 可以提升智能体在复杂环境中的表现和决策能力。
迁移学习(Transfer Learning):将模型在一个任务上的知识应用到另一个任务。
自动机器学习 (AutoML):自动化机器学习流程,减少人工参与,提高效率。
元学习(Meta-learning):教机器如何高效学习的学习方法,通过优化学习过程本身,使模型能够更快地适应新任务,增强学习的灵活性和通用性。
Q学习(Q-Learning):强化学习中的经典算法,通过估算每一步行动的价值(Q值),指导智能体做出最佳选择,步步为营,迈向最终目标。
联邦学习(Federated Learning):是一种分布式机器学习技术,旨在通过在多个设备或数据中心上进行模型训练,而无需将数据从客户端发送到中心服务器。在联邦学习中,每个设备或数据中心本地维护其数据,并通过通信协议共享模型更新,而非原始数据。
GAN(生成对抗网络, Generative Adversarial Network):由两部分组成,生成器试图创建真实数据的伪造样本,判别器则试图区分真伪,二者对抗训练,推动双方性能提升,最终实现对真实数据的完美模仿和创新生成。
DBN(深度信念网络, Deep Belief Network):一种生成模型,基于概率图模型。
变分自编码器(Variational Autoencoder, VAE):是一种深度学习模型,它结合了自编码器(Autoencoder)和概率论中的变分推断(Variational Inference)方法,用于高效地学习数据的低维表示,也称为潜在变量(latent variables)。自编码器原本是用来进行数据的降维和特征学习的,而VAE在此基础上更进一步,旨在学习一个连续、潜在的概率分布,从而不仅能够进行数据压缩,还能生成新的数据样本。
MoE(Mixture of Experts):一种在深度学习中使用的模型架构,旨在提高模型的性能和效率。MoE模型通过将不同的子模型(称为“专家”)组合在一起,每个专家专门处理特定的输入特征或任务,从而实现更好的泛化能力和计算效率。
降维(Dimensionality Reduction):减少数据特征数量的方法,如PCA、t-SNE。
特征工程(Feature Engineering):创建和选择特征以提高模型性能的过程,是提升机器学习效果的关键步骤,为模型搭建坚实的基础。
数据标注:是指为机器学习和人工智能模型准备训练数据时的过程,即为数据集中的样本添加标签、标注或注释,以便模型能够理解和学习数据的含义和特征。
数据预处理(Data Preprocessing):是指在对数据进行主要分析或建模之前,对其进行清洗、整理、转换等一系列操作的过程,目的是提升数据质量,使其更适合后续的数据分析、数据挖掘或机器学习任务。
数据清洗(Data Cleaning):是对数据集进行详细检查和修正的过程,旨在提升数据的质量和可靠性。这一过程专注于识别并纠正数据中的错误、不完整信息、不一致性及冗余现象。
合成数据(Synthetic Data):指通过计算机算法和模型生成的模拟数据,而不是通过实际观测或实验收集的真实数据。这种数据可以用于训练、测试和验证机器学习模型,尤其在数据收集困难、成本高或隐私保护要求高的情况下显得尤为重要。
交叉验证(Cross-validation):是一种评估机器学习模型泛化能力的统计技术。它将数据集分为多个子集(如K折),依次将每个子集作为验证集,其余子集作为训练集,重复进行训练和验证,最终综合所有验证结果以评估模型的性能。
过拟合(Overfitting):模型在训练数据上表现好,但在新数据上表现差的现象。模型过于“熟记硬背”训练数据,导致在新数据面前显得“书呆子气”,无法灵活应对。
欠拟合(Underfitting):模型在训练数据上和新数据上都表现不佳的现象。模型未能充分“消化”训练数据,无论是已知还是未知数据面前,都显得“力不从心”。
模型泛化(generalization):指的是模型在面对新的、以前未见过的数据时的表现能力。衡量模型是否具有“举一反三”的智慧,即在遇见未曾谋面的数据时,依旧能够准确预测或适应的能力。
梯度下降(Gradient Descent):一种优化算法,用于最小化函数,通过迭代地调整参数以减少误差。在机器学习中,梯度下降用于训练模型,通过计算损失函数相对于模型参数的梯度,沿着梯度的反方向更新参数,从而逐步逼近最优解。
损失函数(Loss Function):机器学习和深度学习模型评估预测误差的函数。它量化了模型预测值与实际值之间的差距,帮助优化算法(如梯度下降)调整模型参数以最小化这个差距。常见的损失函数包括均方误差(MSE)、交叉熵损失等。
激活函数(Activation Function):神经网络中的关键组件,它引入非线性,使神经网络能够学习和表示复杂的模式。常见的激活函数包括 ReLU(修正线性单元)、Sigmoid 和 Tanh。激活函数帮助模型在各层之间传递信号,并对输入数据进行转换,决定是否以及如何激活特定神经元。
练丹:在机器学习领域,指训练大规模的神经网络模型,特别是预训练语言模型,如GPT、BERT等。这个过程需要大量的数据、算力和技巧,就像炼制灵丹一样。炼丹重点描述模型调优的过程。这个过程往往需要大量的尝试和经验,包括选择合适的模型结构、优化算法、损失函数、学习率等,就像炼丹一样需要精细的操作和耐心的等待。
蒸馏:模型蒸馏是一种模型压缩技术,它的目标是将一个大型、复杂的模型(被称为教师模型)的知识转移到一个小型、简单的模型(被称为学生模型)中。
挖矿:在机器学习中,"挖矿"通常指的是数据挖掘,即从大量的、未经过处理的数据中提取有用信息和知识的过程。这个过程包括数据清洗、数据转换、数据分析、模式识别等步骤。在深度学习中,"挖矿"也可以指硬件的使用,比如使用GPU进行模型的训练,这个过程因为其高能耗和高计算需求,被比喻为"挖矿"。从大量的无标注数据中挖掘出有用的信息或知识,例如构建知识图谱、生成对话数据等。
自然语言处理 (NLP):计算机科学领域,研究如何让计算机理解、解释和生成人类语言。
语义理解 (Semantic Understanding):模型理解文本意义,而不仅仅是字面意思,涉及上下文、隐喻等。
知识发现(Knowledge Discovery):是指从数据中提取出新的、有用的、以前未知的知识或模式的过程。
知识图谱(Knowledge Graph):一个结构化的知识表示形式,用于存储和展示实体(如人、地点、物品)及其相互关系。它通过节点(表示实体)和边(表示实体间的关系)构建出一个网络,使得信息可以以一种直观且易于检索的方式组织和存储。
模式识别(Pattern Recognition):是指通过分析数据或信号中的重复或有序结构,识别和分类出特定模式或规律的过程。这些模式可以是在不同对象或现象中共享的可重复的特征、属性或行为。
文本生成 (Text Generation):根据给定的提示或上下文生成新的、连贯的文本内容。
机器翻译 (Machine Translation):将文本从一种语言自动翻译成另一种语言的技术。
情感分析 (Sentiment Analysis):判断文本中表达的情感倾向,如正面、负面或中性。
问答系统 (Q&A):自动回答用户提出的问题,需要理解问题并从数据中检索或生成答案。
文本摘要 (Text Summarization):将长文本压缩成保留关键信息的短文本。
对话系统 (Dialogue Systems):能够与用户进行自然语言对话的AI系统,应用于聊天机器人等。
聊天机器人(Chatbot):是一种人工智能应用程序,能够与用户进行自然语言交流,如ChatGPT等。
text2code:指一类技术或工具,能够将自然语言描述的任务或者问题直接转换成计算机可执行的代码。用户只需用自然语言表述他们想要实现的功能或解决的问题,Text2Code系统就会自动分析语句含义,生成相应的编程代码,从而极大地降低了编程的门槛,提高了开发效率。这类技术通常涉及深度学习、自然语言理解和编程语言理解等多个领域的知识。
text2sql:Text2SQL是一种自然语言处理技术,它能将普通自然语言文本自动转换为结构化的SQL查询语句,使得用户无须了解SQL语法即可对数据库进行查询。这项技术广泛应用于智能客服、数据分析和BI工具中,通过理解用户提问,自动生成对应数据库查询指令,获取准确信息。
计算机视觉 (CV):使机器可以“看”并理解图像或视频内容。
Text-to-Video:文本到视频的转换技术,根据文本描述生成视频片段。
Text-to-Image:将文本描述转换为图像的生成技术。这项技术利用深度学习模型,根据输入的自然语言描述生成对应的图像。
Stable Diffusion:可以看作是图像创作的“魔法滤镜”。它基于扩散模型的原理,专注于生成超高清的图像,就像一位技艺精湛的画家,用数字化的“画笔”在虚拟画布上精心雕琢每一个像素,确保每幅作品都既精细又逼真。
ControlNet:用于引导AI绘画过程中的特定元素或风格的辅助网络。在AI绘画的世界里,ControlNet如同一位指导老师,它辅助AI理解并遵循特定的视觉风格或元素布局,比如确保画面中的建筑物具有特定的几何形状或色彩搭配,使得最终的艺术作品不仅富有创意,还精准符合创作者的意图。
DALL-E:这个名字灵感来源于艺术家萨尔瓦多·达利和皮克斯动画《机器人总动员》中的机器人瓦力,是OpenAI推出的创意工具。只需输入一句话描述,比如“月光下的紫罗兰色鲸鱼”,DALL-E就能神奇地将其转化为一幅幅生动的图像,展现了语言到视觉艺术的直接转换。
Sora:OpenAI发布的人工智能文生视频大模型。
Deepfake: 利用AI替换视频中人物面部伪造视频的技术。
语音识别(Speech Recognition):是一种人机交互技术,指的是计算机系统自动识别和理解说话者语音内容的能力。
TTS:(从文本到语音,Text To Speech):这是一种技术,能够让机器或计算机将书面文字转换成自然的人类语音输出。TTS技术广泛应用于各种场景,比如语音助手、导航设备、有声读物、语言学习软件、视障人士辅助工具等,以提供更加自然和直观的交互方式。
CLIP(Contrastive Language-Image Pre-training):由OpenAI提出的一种模型架构,能够理解图像与文本之间的联系,实现跨模态的检索和生成。
智能体(Agent):在环境中感知、思考并采取行动的自主AI系统。
多智能体(Multi-agent):多个智能体协作联合解决复杂问题的系统。
RAG(检索增加生成,Retrieval-Augmented Generation):融合检索与生成的混合策略,增强AI内容创作的丰富度与准确性。
COT(思维链,Chain of Thought):通过逻辑链条深化模型推理,模拟人类思考路径,提升决策的合理性和深度。
TOT(思维树,Tree of Thought):采用思维树状结构组织信息处理,分层次细化分析,促进复杂决策的高效解析。
Function Calling:AI模型的外部能力拓展,直接调用函数或API,实现更广泛的实用功能和复杂操作。
Reflection:智能体的自我审视与调节能力,使其能监控自身状态,适时调整策略,优化决策过程。
ReAct(Reason and Act):是指一种结合了“推理”(Reasoning)和“行动”(Acting)的AI架构。它是人工智能领域中一种设计智能体的方法论,在ReAct框架下,智能体首先根据当前情境进行推理(Reason),决定一个行动方案,然后执行该行动(Action),接着根据行动的结果再次进行推理,形成一个循环迭代的过程。
TensorFlow: 谷歌开源的机器学习框架,为AI开发者提供强大的工具箱,助力模型构建与算法优化。
PyTorch: 来自Meta(原Facebook)的机器学习神器,为深度学习研究与应用提供灵活而强大的工具。
Scikit-learn: Python中最受欢迎的机器学习库之一,简化数据挖掘与分析任务,广受数据科学家喜爱。
langchain:是一个用于开发基于大模型应用程序的框架。
Ollama:一个可以运行Llama大模型的开源推理框架。
LlamaIndex:LlamaIndex是一个连接大模型与外部数据的工具,它通过构建索引和提供查询接口,使得大模型能够学习和利用私有或者特定领域的数据。
向量数据库:专为高维向量数据设计的存储系统,常用于搜索、推荐系统及AI中的相似性匹配,提高数据检索效率。
huggingface:一家专注于自然语言处理(NLP)的人工智能公司,以其开源的Transformers库闻名。该库提供了广泛的预训练模型和工具,支持多种任务,如文本分类、文本生成、翻译、问答等。
Gemma:Gemma是谷歌研发的AI大模型。
Claude:美国人工智能初创公司Anthropic发布的大型语言模型家族。
Llama:Meta(原Facebook)公司开发的开源大语言模型。
GPU:图形处理器,现代计算的加速器,尤其在深度学习和高并行计算任务中发挥着至关重要的作用。
CUDA:NVIDIA开发的并行计算平台和编程模型,允许开发者利用GPU的强大性能,加速科学计算、图形处理等应用。
本文作者:whitebear
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!