百度文新一言提前批面试题7道|含解析
13本七月在线内部电子书在文末,自取~
"号福利
回复【100题】领取《名企AI口试100题》PDF

回复【干货材料】领取NLP、CV、ML、年夜模子等偏向干货材料
问题1、transformer的布局
Transformer是一种基于注意力机制的深度进修模子,普遍利用于天然语言处置(NLP)义务。它的布局主要由以下几个部门构成:
Encoder-Decoder布局:Transformer模子分为两个部门:编码器(Encoder)息争码器(Decoder)。
Encoder:由多个雷同的编码层(通常是6层)堆叠而成,每层由两部门构成:自注意力机制(Self-Attention Mechanism)和前馈神经收集(Feed-Forward Neural Network, FFNN)。
Decoder:同样由多个雷同的解码层(通常也是6层)堆叠而成,每层包含三部门:自注意力机制(Self-Attention Mechanism)、编码器-解码器注意力机制(Encoder-Decoder Attention)和前馈神经收集(FFNN)。
Attention机制:Transformer的焦点是注意力机制,尤其是多头自注意力机制(Multi-Head Self-Attention),它容许模子存眷输入序列中分歧地位的关系。
Position Encoding:因为Transformer不使用轮回布局(如RNN中的光阴步),它使用地位编码(Positional Encoding)来捕获序列中列位置的地位信息。
Layer Normalization:每一层中使用归一化来加快训练并进步稳固性。
问题2、transformer残差衔接的目标
残差衔接(Residual Connection)的主要目标是办理梯度消散问题,使得在深度收集训练时梯度可以或许更容易地流传,从而有助于更深条理收集的训练。此外,残差衔接也可以保存输入信息,防止信息在层之间丧失,有助于模子的稳固性和收敛速率。
问题3、transformer encoder的归一化是什么
Transformer Encoder使用的是Layer Normalization(层归一化)。在每个子层的输出上利用LayerNorm,以稳固模子的训练并加速收敛速率。
问题4、cv常用的归一化是什么,和transformer归一化的区别
在计算机视觉(CV)中,常用的归一化办法是Batch Normalization(批归一化)。BatchNorm在训练时会基于一个mini-batch的数据来计算均值和方差,然后使用这些统计量对数据进行归一化。
区别:
BatchNorm: 对整个mini-batch的数据进行归一化,依附于batch内的统计量;主要用于卷积神经收集(CNN)。
LayerNorm: 对每个零丁的样本进行归一化,不依附于batch的年夜小;更得当像Transformer这种序列模子。
问题5、layernorm的公式
LayerNorm对每一个输入样本 x 的每一个特性 x_i 进行归一化。详细公式如下:
此中:
是输入特性的均值。
是输入特性的尺度差。
是一个小的正数,用于防止除以零。
- H 是输入的维度。
末了,归一化后的值会经由过程两个可进修参数 和 进行缩放和平移:
问题6、batchnorm推理时的方差和均值若何计算
在推理时,BatchNorm不再使用每个batch内的均值和方差,而是使用在训练进程中累积的全局均值和方差。这些全局统计量通常经由过程指数移动均匀(Exponential Moving Average, EMA)在训练时代进行估量。
详细来说,全局均值和方差的计算公式如下:
全局均值:经由过程所有训练batch的均值按如下方式计算:
全局方差:经由过程所有训练batch的方差按如下方式计算:
此中,是衰减因子(通常靠近1)。
问题7、RAG的流程
RAG(Retrieval-Augmented Generation) 是一种联合了检索与天生的模子布局,分外实用于必要年夜量外部常识的天然语言天生义务。RAG的主要流程如下:
检索(Retrieval):给定一个输入查询,使用检索模子(如DPR)从预先构建的文档数据库中获取与查询相关的文档片断。
天生(Generation):将检索到的文档片断与查询拼接,输入到天生模子(如BART或GPT)中进行答复天生。
输出(Output):天生模子应用检索到的信息天生终极的谜底。
RAG的上风在于可以或许应用年夜量外部常识库,加强天生模子的常识才能,从而天生加倍精确和信息丰硕的谜底。
↓以下13本书电子版免费领,直接送↓
扫码回复【999】免费领13本电子书
(或找七月在线其他先生领取)