About 50 results
Open links in new tab
  1. 目前针对大模型蒸馏的方法有哪些? - 知乎

    知识蒸馏(KD),也被称为教师-学生神经网络学习算法,是一种有价值的机器学习技术,旨在提高模型性能和泛化能力。 它通过将知识从复杂的模型(称为教师模型)转移到更简单的模型(称为学生模 …

  2. OpenAI宣称 DeepSeek违规蒸馏,但没有给出证据。“蒸馏 ...

    Jan 30, 2025 · 为了培养这么多小模型,那么就需要这位能力强大的”长者,传授这些小模型一些知识,这个过程就是模型蒸馏。 以DeepSeek发布的六个蒸馏模型为例,满血版671B参数量的DeepSeek R1 …

  3. 许多人说DeepSeek是从GPT蒸馏出来的,这是真的吗?

    Jan 29, 2025 · 蒸馏的是用于初始冷启动的训练数据,不是模型。 Open AI是闭源模型,你难道还想蒸馏出一个小模型? 实际上,R2和V4的冷启动数据就已经可以蒸馏R1了,这甚至只是一个阶段性问题。

  4. Deepseek为什么蒸馏llama和Qwen模型,而不用671B满血 ...

    Feb 17, 2025 · 因为DeepSeek-R1这个671B的大模型是被蒸馏的。 蒸馏这个操作需要一个“教师”模型,一个“学生”模型。 而DeepSeek就是用自己的这个DeepSeek-R1的671B的大模型当作教师模型来 …

  5. 美国 AI 三巨头围剿模型蒸馏,对全球主要大模型公司将产生 ...

    Apr 8, 2026 · 美国 AI 三巨头围剿模型蒸馏,对全球主要大模型公司将产生哪些影响? 一场由OpenAI、Anthropic、谷歌牵头的全球AI联盟,正在彻底改写大模型行业的生存规则。 近期,这三家占据全球 …

  6. 有人能解释一下DeepSeek大模型的蒸馏技术是什么意思吗?

    Dec 17, 2025 · 它蒸馏的不是“答案”,而是“思考过程”。 DeepSeek 证明了只要老师模型能提供足够纯净、没有杂质的思考步骤,小模型通过监督微调(SFT)也能进行逻辑得推理。 在 R1 的技术报告他们 …

  7. AI 领域的「蒸馏」是什么意思? - 知乎

    闭源模型的护城河未来会逐渐被打破,AI 技术会越来越民主。 总结 蒸馏是一种高效的知识迁移技术,闭源模型(如GPT-4)可通过黑箱方法蒸馏,而GPT模型也可通过自蒸馏优化自身。 DeepSeek-V3的 …

  8. 到底什么是模型蒸馏? - 知乎

    Feb 26, 2026 · 模型蒸馏(Model Distillation)是一种知识迁移技术,旨在将一个大型、复杂且性能优异的模型(教师模型)的知识传递给一个较小、更高效的模型(学生模型)。这就是模型蒸馏的定义, …

  9. 如何把 deepseek-R1 微调或蒸馏为某领域的一个专家? - 知乎

    让模型学会新技能:训练一个心理咨询模型,让它学会一种新技能——情绪疏导。 长文本 & 知识库 & 微调的区别 现在各大模型都支持超长上下文,从最开始的 4K 到现在的 200K,我们不能用一个比较完 …

  10. 如何评价微软研究院提出的 Black-Box On-Policy Distillation

    以前的蒸馏方法其实都是在背答案 大部分人搞蒸馏,用的是 SeqKD (Sequence-Level Knowledge Distillation)。思路很简单,就是拿一堆问题喂给老师模型,然后把它的回答全存下来,然后让你的小 …