Mon, 01 Jan 0001 00:00:00 +0000

Intro(Varint-encoding) #
- 定义描述 #
  
  varint 类似于 utf-8，varchar等长度不定。顾名思义，属于变长的 int。对于一个 int 类型的数据来说，一般都为四个字节(固长)。所以变长的话就是将固定的四个字节中浪费的那部分去掉，比如对于整形 2 来说对应的二进制为 \(00000000\space00000000\space00000000\space{\color{red}00000010}\) 前面的三个字节都为0，而且完全可以使用一个字节表示，此处对于整数2 来说，前三个字节就是浪费。所以出现了varint。使用少量字节来表示整数。使用定义型的方式描述就是：采用不定长的字节来编码或序列化一个整数。
- 编码过程 #
  
  Note
  将一个 int 型的数据二进制表示，从后至前，依次取 7 位，与 varint 特性 msb 占 1 位组成一个字节，直到无效字节(也就是前面全是零)，然后将这些字节按照小端字节序排列。形成一个新的数字，这个过程中会丢弃浪费字节，达到压缩的目的。
  
  varint msb 最高有效位为 1 表示后面都得字节属于当前值，为 0 表示当前字节是最后一部分。用来区分 varint 值边界。
  
  对于负数来说，编码过程并没有什么区别，只是因为负数最高位一直为 1，所以不存在浪费，也就是 vaint 对于负数压缩无效，字节不减反增。原本 -2 可以使用 8 个字节表示，但最终用使用了 10 个字节。所以在 ProtoBuf 中一般只处理无符号 64bit 值，签名如：func EncodeVarint(v uint64) []byte {}。所以我们此处传入的 -2 其实是当一个无符号正值处理的，负数的 varint 编码没有意义，我们应当避免直接对负值进行 varint 编码。而是先进行 zigzag 编码映射后在进行 varint处理。

Mon, 01 Jan 0001 00:00:00 +0000

Intro(ZigZag-encoding) #
- 定义描述 #
  
  正如 varint 编码中所述，它对于负数来说显得手足无措，心有余而力不足。zigzag 编码 就是用来弥补 varint 的缺陷的。它会将负数映射成正值（但是不需要额外的映射表），比如：(0 = 0, -1 = 1, 1 = 2, -2 = 3, 2 = 4, -3 = 5, 3 = 6 ...)，从而能够使用 varint 继续编码。zigzag 编码的大致原理就是采用异或操作，将阻碍压缩的 1 进行消除。
  
  没有特别说明的都已 32 bit 进行阐述。
  
  异或操作
  异或运算(XOR | ^)，相同为 0，不同为 1。并且异或操作有如下特性：
  1). 任何数（0，1）与 1 进行异或的结果相当于取反，比如 0 ^ 1 = 1, 1 ^ 1 = 0。
  2). 任何数（0，1）与 0 进行异或的结果相当于不变，比如 0 ^ 0 = 0, 1 ^ 0 = 1。

archive

Intro(Varint-encoding) #

定义描述 #

编码过程 #

Intro(ZigZag-encoding) #

定义描述 #