close
当前位置: 物联网在线 > 技术文库 >

百度云RSA解密加速服务

 百度云RSA解密加速服务

RSA算法是一种最广为使用的“非对称加密算法”,一般公钥/私钥长度越长,安全性就越好,计算也越复杂。百度云https改造中应用了RSA 2048加解密算法,针对高计算复杂度的RSA解密任务,我们运用FPGA上的并行计算资源和定制化的数据通路,提供了高达45000QPS的解密能力(是CPU单线程吞吐率的75倍以上,媲美商用ASIC加解密卡的吞吐率),同时还将提供独具特色的私钥管理方案,令系统安全性得到了质的提升。

软件调用API执行

编译

执行lspci | grep -i Xilinx,输出非空,证实FPGA已被正确透传给虚拟机。

编译驱动,进入rsa-driver目录,执行make。

如提示“No such file or directory”,请修改Makefile中的KERNELDIR变量,使之指向正确的内核编译目录,一般为/usr/src/kernels/$(uname -r)。

如编译时提示符号重定义,请删除源文件中的PDE_DATA、file_inode、kvalloc、kvfree等符号。

加载驱动,执行insmod fpga_drive.ko。

检查/dev/fpga0的权限是否为0666,如过不是,请执行chmod 666 /dev/fpga0。

在openssl系统engine目录创建到rsa-api/output/so/libfpga_rsa_cpp.so的软链接,即执行ln -s /path/to/rsa-api/so/libfpga_rsa_cpp.so /usr/lib64/openssl/engines/libfpga_rsa_cpp.so。

通过openssl标准engine接口使用RSA加速功能,在正确加载并初始化engine后即可通过RSA_private_encrypt、RSA_private_decrypt进行RSA私钥加解密。

FPGA支持密钥长度在2048 bits以下的RSA私钥加解密。如给定密钥长度超出此范围,engine会转交CPU计算,此时性能等同于直接使用CPU处理。

#include ‹openssl/rsa.h›
#include ‹openssl/engine.h›
#include ‹openssl/err.h›

OpenSSL_add_all_algorithms();
ERR_load_crypto_strings();
ENGINE_load_dynamic();

/* load engine */
ENGINE *engine = ENGINE_by_id("fpga_rsa_cpp");
if (engine == NULL) {
LOG(WARNING) ‹‹ "Could not Load fpga_rsa_cpp Engine!";
return 1;
}
LOG(INFO) ‹‹ "fpga_rsa_cpp Engine successfully loaded";

/* init engine */
int init_ret = ENGINE_init(engine);
int set_ret = ENGINE_set_default_RSA(engine);
LOG(INFO) ‹‹ "engine name = " ‹‹ ENGINE_get_name(engine);
LOG(INFO) ‹‹ "init_ret = " ‹‹ init_ret;
LOG(INFO) ‹‹ "set_ret = " ‹‹ set_ret;

if ((init_ret != 1) || (set_ret != 1)) {
LOG(WARNING) ‹‹ "Failed to init engine";
return 1;
}

/* use engine */
RSA_private_decrypt(flen, from, to, rsa, padding);

性能测试

qps

执行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 36,在"sign/s"一栏中可以看到qps。正常情况应在40000/s以上。

 百度云RSA解密加速服务

latency

执行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 1,在"sign"一栏中可以看到latency。正常情况应在700us左右。

 百度云RSA解密加速服务

RSA私钥解密QPS对比

FPGA解决方案与使用双路Intel Xeon E5-2620 v2服务器(超线程开启,共24核)进行纯CPU计算相比,性能优势十分明显,如下图所示。当RSA密钥长度为512 bits、1024 bits和2048 bits时,前者的私钥解密QPS分别是后者的2.13、4.52和9.36倍,latency仅为后者的89%、50%和27%。

 百度云RSA解密加速服务


 百度云RSA解密加速服务

文章原文链接:


(责任编辑:ioter)

用户喜欢...

给AI换个“大动力小心脏”之OCR异构加速

OCR在通用文字识别等场景下有广泛应用,基于FPGA异构加速的OCR识别相比CPU/GPU实现具有延时小、成本低的优势。我们设计了多FPGA芯片协同的异构加速架构,能快速适配业务OCR模型变化,检测识...


为应用选择最合适的 MEMS加速度计——第二部分

为应用选择最合适的加速度计可能并不容易,因为来自不同制造商的数据手册可能大相径庭,让人难以确定最为重要的技术指标是什么。在本文第二部分,我们将从可穿戴设备、状态监控和物...


为应用选择最合适的MEMS加速度计——第一部分

加速度计能够测量加速度、倾斜、振动或冲击,因此适用于从可穿戴健身装置到工业平台稳定系统的广泛应用。市场上有成百上千的加速度计器件可供选择,其成本和性能各不相同。本文第一...


解密蓝牙mesh系列 | 第十篇

在本文的Part1中,我介绍了启动配置承载层(provisioning bearer layer)和蓝牙mesh启动配置流程的前三个阶段:发送Beacon信号、邀请和交换公共密钥。 启动配置流程包括五个阶段: 1、发送Beacon信号...


给 AI 换个“大动力小心脏”之通用 CNN 加速设计

基于FPGA的通用CNN加速设计,可以大大缩短FPGA开发周期,支持业务深度学习算法快速迭代;提供与GPU相媲美的计算性能,但拥有相较于GPU数量级的延时优势,为业务构建最强劲的实时AI服务能...


解密蓝牙mesh系列 | 第八篇

蓝牙mesh网络安全性概览 为何安全性如此关键? 安全性可谓是物联网(IoT)最受关注的问题之一。从农业到医院、从智能家居到商业智能建筑、从发电站到交通管理系统,物联网系统和技术将...


解密蓝牙mesh系列 | 第七篇

市场上的低功耗蓝牙设备 低功耗蓝牙 低功耗蓝牙(Bluetooth Low Energy)是一项相当成功的无线技术。如今已经很难找到不支持低功耗蓝牙的智能手机或平板电脑了。可以说它是可穿戴技术兴起...


解密蓝牙mesh系列 | 第六篇

蓝牙mesh网络好比是一个VIP俱乐部。如果您是这个俱乐部的会员,就可以随意进入,享受与会员类别相对应的设施和服务。如果您不是会员,便无论如何也过不了门卫这一关。 蓝牙mesh设备有可...


MEMS加速度计的振动校正

高性能MEMS加速度计为各种集成惯性测量的应用提供低成本解决方案。具体例子包括:导航和AHRS系统,用于机器健康状况检测的振动监控,基础设施的结构健康状况监控,以及用于平台稳定、...


使用SDSoC的仿真工具,在基于Zynq的嵌入式系统设计中查找并修复PS / PL性能加速问题

得益于赛灵思的SDSoC开发环境,将您的软件算法部分卸载到Zynq SoC或Zynq UltraScale + MPSoC的PL(可编程逻辑)以满足系统性能要求是非常简单的。一旦您熟悉了SDSoC的数据传输选项,可以在PS和PL之...