Transformer 恰好属于对位置不敏感的结构,所以我们需要额外给 Transformer 带上每一个字所在的位置。本文介绍了绝对位置编码和相对位置编码两种方式。
Mask 的灵感是来自于完形填空。Transformer 结构包括编码器和解码器,在编码过程中目的就是为了让模型看到当前位置前后的信息,所以不需要 attention mask。但是在解码过程中为了模拟在真实的 inference 场景中,当前位置看不到下一位置,且同时需要上一位置的信息,所以在训练的时候加了attention mask。能很有效提升泛化性。
现代的知识蒸馏中,我们发现学生模型可以与教师模型有着不同的预测结果,即使学生模型能完美匹配教师模型。尝试的去比较学生模型的泛化能力与匹配程度的相关性。泛化性指模型经过训练后,应用到新数据并做出准确预测的能力、匹配程度则能更好反映了学生模型蒸馏到了多少教师模型含有的知识。
Kvrocks 是基于 RocksDB 之上兼容 Redis 协议的 NoSQL 存储服务,设计目标是提供一个低成本以及大容量的 Redis 服务,作为 Redis 在大数据量场景的互补服务,选择兼容 Redis 协议是因为简单易用且业务迁移成本低。
在《R-Drop: Regularized Dropout for Neural Networks》引入了一种一致性的训练策略来规范化 dropout,称为 R-Drop。