About 24,100 results
Open links in new tab
  1. 理解NLP最重要的编码方式 — Byte Pair Encoding (BPE),这一篇就够了

    在machine learning,尤其是NLP的算法面试时,Byte Pair Encoding (BPE) 的概念几乎成了一道必问的题,然而尴尬的是,很多人用 …

  2. 大模型入门:手写一个 BPE 分词器,搞懂 Token 到底怎么来的

    May 27, 2026 · 大模型入门:手写一个 BPE 分词器,搞懂 Token 到底怎么来的 摘要: 很多人学习大模型时,会直接从 Attention …

  3. BPE(字节对编码):原理、流程与应用详解 - 博客园

    Aug 24, 2025 · BPE(字节对编码):原理、流程与应用详解 BPE(Byte Pair Encoding,字节对编码)是一种子词级(Subword …

  4. Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 …

    Mar 9, 2026 · 然而,这种方法在处理未知单词和稀有单词时存在局限性。 为了解决这一问题,BPE算法应运而生。 BPE算法是一种基 …

  5. 动手实现和优化BPE Tokenizer的训练——第1部分:最简单实现

    Sep 7, 2025 · 我们甚至可以用Aho-Corasick (trie)算法来实现更高效的切分。 不过根据优化的Amdahl’s Law,我们在没有profile之前最 …

  6. Byte-pair encoding - Wikipedia

    In computing, byte-pair encoding (BPE), [1][2] or digram coding, [3] is an algorithm, first described in 1994 by Philip Gage, for …

  7. 字节对编码分词 - Hugging Face LLM 课程 - Hugging Face 文档

    字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,后来被 OpenAI 用于预训练 GPT 模型时的分词。 许多 Transformer 模型 …

  8. GitHub - karpathy/minbpe: Minimal, clean code for the Byte Pair ...

    Minimal, clean code for the (byte-level) Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization. The BPE algorithm …

  9. 每天5分钟搞懂大模型的分词器tokenizer(二):BPE (Byte-Pair …

    Oct 25, 2024 · BPE (Byte-Pair Encoding) 字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的,最早是由Philip Gage于1994年 …

  10. BPE Tokenizer From Scratch | Sebastian Raschka, PhD

    Jan 17, 2025 · Implements byte pair encoding (BPE) tokenization from scratch: tokenizer training, GPT-style merge rules, and step …