Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率

Google最近在 Google Colab 上开源了一个名为 RETVec 的新型多语言文本矢量化器，这个矢量化器已经部署在 Gmail 上，用来提升垃圾邮件和钓鱼邮件的识别率，同时降低误报率。Google称 RETVec 经过训练能够抵御字符级操作，包括插入、删除、拼写错误、同形文字、LEET 替换等，这个模型是在新型字符编码器之上进行训练的，该编码器可以有效针对所有 UTF-8 字符和单词进行编码。

为什么要训练这样一种模型呢？因为 Gmail 每天收发的邮件都在千万级别，如果包含各类垃圾邮件的话可能有几十亿，而垃圾邮件制造者会对Google的检测系统进行规避，例如使用同形字。

RETVec 支持 100 多种语言，旨在帮助构建更具有弹性和高效的服务端和设备上的文本分类，同时也更加强大和高效。

根据Google自己的统计，将 RETVec 应用到 Gmail 后，垃圾邮件检测率比基准提高 38%、误报率降低 19.4%、张量处理单元 (TPU) 使用率降低了 83%。

Screenshot 2023-11-29 at 8.16.22 AM.webp

Google工程师表示由于其紧凑的表示形式，使用 RETVec 训练的模型表现出更快的推理速度，较小的模型可以降低计算成本并减少延迟，这对于大规模系统和设备上的模型至关重要。

矢量化是 NLP 即自然语言处理中的一种方法，用于将词汇中的单词或短语映射到相应的数字表达，以便执行进一步分析，例如情感分析、文本分类和命名实体识别等。

对文章打分

Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率

最新资讯

编辑精选

热门评论

相关文章

不要使用OpenClaw AI机器人操作你的Gmail邮箱部分用户被封号

Gmail在美向个人用户免费开放三项AI功能

Gmail将停止其他邮箱通过POP3协议代收邮件后续用户只能使用邮件转发

Google终于允许用户修改账户邮箱可以将six666之类的邮箱替换了

Gmail用户现可向任何人发送端到端加密邮件

Gmail推出新功能：可从邮件中追踪购物订单并查找相关优惠

Top 10

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

极客湾遭"封杀"引热议连YouTube视频都下架了

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

苹果不再允许用户扛着MacBook到苹果零售店拷贝Final Cut Pro