About 463,000 results
Open links in new tab
  1. 一文了解Transformer全貌(图解Transformer)

    Sep 26, 2025 · Transformer整体结构(输入两个单词的例子) 为了能够对Transformer的流程有个大致的了解,我们举一个简单的例子,还是以之前的为例,将法语"Je suis etudiant"翻译成英 …

  2. Transformer和MLP日积月累 - 知乎

    Transformer和MLP日积月累 全网最全面的视觉Transformer和MLP解读 科技猛兽 清华大学 自动化系硕士

  3. 权重初始化是为什么用kaiming init反而变差了? - 知乎

    Kaiming初始化主要是为了解决 深层网络 中的梯度消失 (梯度特别的接近 0) 和梯度爆炸 (梯度特别的大)问题。 题主做的问题感觉蛮简单的,这样的话估计没有用特别深的mlp,甚至可能只有 …

  4. Kaggle量化赛金牌方案全集 - 知乎

    原文链接: DRW solution 1st | Kaggle CODE:暂无 建模 通常,基于树的模型和神经网络的最终集成模型往往表现最佳。并且通常其中一种模型会占主导地位,另一种只是在集成阶段提供一 …

  5. transformer架构的核心公式其实类似于数学期望,理解起来也不复 …

    神经网络的一个基础假设是:通过堆叠一些基础的计算单元,我们能够构建强大的智能体。 所以不仅仅是Transformer,其它所有主流的神经网络架构(如CNN、RNN、MLP),他们的 核心计 …

  6. CNN,Transformer,MLP 三大架构的特点是什么? - 知乎

    CNN擅长处理图像数据,具有强大的特征提取能力;Transformer通过自注意力机制实现了高效的并行计算,适用于处理序列数据;而MLP则以其强大的表达能力和泛化能力,在多种类型的机 …

  7. MoE (Mixture-of-Experts)大模型架构的优势是什么?为什么?

    MoE 应用于大模型,GPT-4并不是第一个。在2022年的时候,Google 就提出了MoE大模型 Switch Transformer,模型大小是1571B,Switch Transformer在预训练任务上显示出比 T5 …

  8. 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎

    一个可能的原因是,它跟MQA相比似乎没有表现出什么优势 [2],反而增加了系统复杂度。 2) MoE结构,不同于Mixtral中大专家的设计(将稠密模型中的MLP结构复制8份),DeepSeek …

  9. 多模态投影器projector在视觉大模型中扮演怎样的角色? - 知乎

    如果类型匹配 mlp(\\d+)x_gelu 模式,比如 mlp2x_gelu,就根据匹配的数字创建多层感知器(MLP),每层之间使用GELU激活函数。 如果类型是 identity,就返回恒等映射模块。 这些 …

  10. 机器学习中,逻辑回归和单层MLP是完全等价的吗? - 知乎

    对于二分类问题,如果你说的「单层MLP」是指没有隐藏层,且输出层使用 sigmoid 激活函数,那么它和 逻辑回归 是等价的。 他们的结构都是一个线性变换 + sigmoid,公式是一样的: z = w …