BBPE: Byte-level Byte Pair Encoding

Naifan Li — Thu, 14 Feb 2019 11:04:08 +0800

引言

字节级字节对编码（Byte-level Byte Pair Encoding, BBPE）是 GPT-2 引入的一种分词算法，它将传统的 BPE（Byte Pair Encoding）算法扩展为在字节级别操作。这种方法通过确保任何文本都能被分词而不产生未知标记，从根本上解决了词表外（Out-of-Vocabulary, OOV）问题，因为所有字符都可以表示为 UTF-8 字节。

传统 BPE 的问题

传统 BPE 算法直接在 Unicode 字符上操作。当遇到词表中不存在的字符时，这些算法会产生（未知）标记，导致信息丢失和模型性能下降。在处理以下情况时，这一限制变得尤为严重：

多语言文本：不同语言具有完全不同的字符集
罕见字符：特殊符号、表情符号或领域特定字符
混合脚本：包含多种书写系统的文本

BBPE 解决方案

BBPE 通过引入字节级预处理步骤来解决这些限制。BBPE 不是直接在字符上操作，而是：

将所有文本转换为 UTF-8 字节序列
将字节映射到可打印的 Unicode 字符（避免控制字符）
对这些字节表示应用 BPE 合并操作

这确保了任何文本，无论语言或字符集如何，都能被分词而不产生未知标记。

技术架构

BBPE 分词过程包含四个顺序步骤：

步骤 1：预分词（Pre-tokenization）

预分词使用正则表达式在应用 BPE 之前将文本分割成更小的片段。这防止了不同类型字符的错误合并。GPT-2 分词器使用以下正则模式：

1
2
3


import regex as re

PATTERN = r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""

模式组件：

缩略词：'s|'t|'re|'ve|'m|'ll|'d - 处理英文缩略形式
字母： ?\p{L}+ - 可选空格后跟一个或多个 Unicode 字母（包括中文字符）
数字： ?\p{N}+ - 可选空格后跟一个或多个 Unicode 数字
标点符号： ?[^\s\p{L}\p{N}]+ - 可选空格后跟非空白、非字母、非数字字符
尾部空白：\s+(?!\S) - 文本末尾的空白字符（负向前瞻）
通用空白：\s+ - 任何空白字符序列（兜底规则）

示例：

Tokenizer - Tag - Naifan Li's Blog

BBPE: Byte-level Byte Pair Encoding

引言

传统 BPE 的问题

BBPE 解决方案

技术架构

步骤 1：预分词（Pre-tokenization）