fpga实现算法

发布时间: 2022-09-07 21:41:24

Ⅰ fpga加速可以用在哪些算法上

基本上所有算法都是可以用FPGA来实现的，只是有些算法基本上是串行的，用FPGA来实现，体现不出速度优势。

Ⅱ FPGA实现排序有什么常用的算法吗

排序之前，必须先对待排序的数据特性有所了解，根据其不同的特点，选择不同的算法。由于排序算法都不是特别难，FPGA实现不会是问题所在，但数据量很大又要求排序速度很快的情况下，主要是简化算法。

Ⅲ 为什么在FPGA实现需要算法定点化

用FPGA实现算法，简单理解就像用C语言实现算法一样。不过FPGA用硬件描述语言，如verilog
等。可以根据算法先用C实现，然后再用verilog实现。C和verilog有种一一对应的关系。综合之后有需要可以进行布局，约束和优化等。因为FPGA可以并行执行，所以实现算法要比CPU类型的器件（如DSP、MCU等）有优势。

Ⅳ 如何用fpga实现算法的硬件加速

首先，利用传统的软件技巧来优化算法，然后将其转向定制指令以加速算法。我们将讨论不同实现方法的性能比较和折衷。
CRC算法可用来校验数据在传输过程中是否被破坏。这些算法很流行，因为它们具有很高的检错率，而且不会对数据吞吐量造成太大影响，因为CRC校验位被添加进数据信息中。但是，CRC算法比一些简单的校验和算法有更大的计算量要求。尽管如此，检错率的提高使得这种算法值得去实施。
一般说来，发送端对要被发送的消息执行CRC算法，并将CRC结果添加进该消息中。消息的接收端对包括CRC结果在内的消息执行同样的CRC操作。如果接收端的结果与发送端的不同，这说明数据被破坏了。
CRC算法是一种密集的数学运算，涉及到二元模数除法(molo-2 division)，即数据消息被16或32位多项式(取决于所用CRC标准)除所得的余数。这种操作一般通过异或和移位的迭代过程来实现，当采用16位多项式时，这相当于每数据字节要执行数百条指令。如果发送数百个字节，计算量就会高达数万条指令。因此，任何优化都会大幅提高吞吐量。
代码列表1中的CRC函数有两个自变量(消息指针和消息中的字节数)，它可返回所计算的CRC值(余数)。尽管该函数的自变量是一些字节，但计算要逐位来执行。该算法并不高效，因为所有操作(与、移位、异或和循环控制)都必须逐位地执行。
列表1：逐位执行的CRC算法C代码。
/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))
crc crcSlow(unsigned char const message[], int nBytes)
{
crc remainder = 0;
/*
* Perform molo-2 division, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
/*
* Bring the next byte into the remainder.
*/
remainder ^= (message[byte] << (WIDTH - 8));
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
}
/*
* The final remainder is the CRC result.
*/
return (remainder);
}
1.传统的软件优化
图3：带CRC外围电路和DMA的系统模块示意图。
让我们看一下如何利用传统的软件技巧来优化CRC算法。因为CRC操作中的一个操作数，即多项式(除数)是常数，字节宽CRC操作的所有可能结果都可以预先计算并存储在一个查找表中。这样，通过一个读查找表动作就可让操作按逐个字节执行下去。
采用这一算法时，需要将这些预先计算好的值存储在存储器中。选择ROM或RAM都可以，只要在启动CRC计算之前将存储器初始化就行。查找表有256个字节，表中每个字节位置包含一个CRC结果，共有256种可能的8位消息(与多项式大小无关)。
列表2示出了采用查找表方法的C代码，包括生成查找表crcInit()中数值的代码。
列表2：采用查找表方法的CRC算法C代码。
crc crcTable[256];
void crcInit(void)
{
crc remainder;
/*
* Compute the remainder of each possible dividend.
*/
for (int dividend = 0; dividend < 256; ++dividend)
{
/*
* Start with the dividend followed by zeros.
*/
remainder = dividend << (WIDTH - 8);
/*
* Perform molo-2 division, a bit at a time.
*/
for (unsigned char bit = 8; bit > 0; "bit)
{
/*
* Try to divide the current data bit.
*/
if (remainder & TOPBIT)
{
remainder = (remainder << 1) ^ POLYNOMIAL;
}
else
{
remainder = (remainder << 1);
}
}
/*
* Store the result into the table.
*/
crcTable[dividend] = remainder;
}
} /* crcInit() */
crc crcFast(unsigned char const message[], int nBytes)
{
unsigned char data;
crc remainder = 0;
/*
* Divide the message by the polynomial, a byte at a time.
*/
for (int byte = 0; byte < nBytes; ++byte)
{
data = message[byte] ^ (remainder >> (WIDTH - 8));
remainder = crcTable[data] ^ (remainder << 8);
}
/*
* The final remainder is the CRC.
*/
return (remainder);
} /* crcFast() */
整个计算减少为一个循环，每字节(不是每位)有两个异或、两个移位操作和两个装载指令。基本上，这里是用查找表的存储空间来换取速度。该方法比逐位计算的方法要快9.9倍，这一提高对某些应用已经足够。如果需要更高的性能，可以尝试编写汇编代码或增加查找表容量以挤出更多性能来。但是，如果需要20、50甚至500倍的性能提高，就要考虑采用硬件加速来实现该算法了。
表1：各种规模的数据模块下CRC算法测试比较结果。
2.采用定制指令方法
CRC算法由连续的异或和移位操作构成，用很少的逻辑即可在硬件中简单实现。由于这一硬件模块仅需几个周期来计算CRC，采用定制指令来实现CRC计算要比采用外围电路更好。此外，无须涉及系统中任何其它外围电路或存储器。仅需要一个微处理器来支持定制指令即可，一般是指可配置微处理器。
当在硬件中实现时，算法应该每次执行16或32位计算，这取决于所采用的CRC标准。如果采用CRC-CCITT标准(16位多项式)，最好每次执行16位计算。如果使用8位微处理器，效率可能不太高，因为装载操作数值及返回CRC值需要额外的周期。图2示出了用硬件实现16位CRC算法的内核。
信号msg(15..0)每次被移入异或/移位硬件一位。列表3示出了在64KB数据模块上计算CRC的一些C代码例子。该实例是针对Nios嵌入式处理器。
列表3：采用定制指令的CRC计算C代码。
unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
unsigned short* pointer;
unsigned short word;
/*
* initialize crc reg to 0xFFFF
*/
word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
/*
* calculate CRC on block of data
* nm_crc() is the CRC custom instruction
*
*/
for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
word = nm_crc(*pointer, 0) return (word);
}
int main(void)
{
#define data_block_begin (na_onchip_memory)
#define data_block_end (na_onchip_memory + 0xffff)
unsigned short crc_result;
unsigned int data_block_length = (unsigned short *)data_block_end - (unsigned short
*)data_block_begin + 1;
crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}
采用定制指令时，用于计算CRC值的代码是一个函数调用，或宏。当针对Nios处理器实现定制指令时，系统构建工具会生成一个宏。在本例中为nm_crc()，可用它来调用定制指令。
在启动CRC计算之前，定制指令内的CRC寄存器需要先初始化。装载初始值是CRC标准的一部分，而且每种CRC标准都不一样。接着，循环将为数据模块中的每16位数据调用一次CRC定制指令。这种定制指令实现方式要比逐位实现的方法快27倍。
3.CRC外围电路方法
如果将CRC算法作为硬件外围电路来实现，并利用DMA将数据从存储器转移到外围电路，这样还可以进一步提高速度。这种方法将省去处理器为每次计算而装载数据所需要的额外周期。DMA可在此外围电路完成前一次CRC计算的时钟周期内提供新的数据。图3示出了利用DMA、CRC外围电路来实现加速的系统模块示意图。
在64KB数据模块上，利用带DMA的定制外围电路可获得比逐位计算的纯软件算法快500倍的性能。要知道，随着数据模块规模的增加，使用DMA所获得的性能也随之提高。这是因为设置DMA仅需很少的开销，设置之后DMA运行得特别快，因为每个周期它都可以传递数据。因此，若只有少数字节的数据，用DMA并不划算。
这里所讨论的所有采用CRC-CCITT标准(16位多项式)的算法都是在Altera Stratix FPGA的Nios处理器上实现的。表1示出了各种数据长度的测试比较结果，以及大致的硬件使用情况(FPGA中的存储器或逻辑单元)。
可以看出，算法所用的硬件越多，算法速度越快。这是用硬件资源来换取速度。

Ⅳ 在FPGA上快速实现MD5算法的新方法论文

在FPGA上快速实现MD5算法的新方法论文

摘要 文章介绍了一种在FPGA上快速实现MD5算法的新方法，给出了优化设计的原理、实现的具体方法及其重要模块的设计实现方案。

关键词 MD5；FPGA；Verilog语言；集成电路；关键路径

1 引言

随着电子商务和网络通信的发展，网络信息安全的重要性越来越显着，信息加密、数字签名、数据的完整性认证、身份验证等成为信息安全领域的重要内容。MD5算法本身是为数字签名应用而设计的，随后也应用在信息验证技术当中。作为应用最广泛的安全散列算法，MD5算法的高效实现就成为研究的需要，MD5算法本身可以采用软件实现，但其性能受到处理器件性能的制约不能满足网络通信带宽日益增长的要求，因而通过硬件实现高速MD5 运算就成为需要。

2 MD5算法介绍

MD5 算法可以对任何长度不超过 264二进制位的消息产生128 位的单向散列消息摘要输出， RFC1321 标准中的MD5 算法主要步骤如下：

在一些初始化处理后，MD5以512位分组来处理输入文本，每一分组又划分为16个32位子分组。算法的输出由四个32位分组组成，将它们级联形成一个128位散列值。

（1）附加填充比特：填充消息使其长度恰好为一个比512位的倍数仅小64位的数。即对报文进行填充使报文的长度(比特数)与448模512同余。填充方法是附一个1在消息后面接所要求的多个比特0。

（2）附加长度值：在其后附上64位的消息长度（填充前）。如果消息长度大于 264，仅使用该长度的低64比特。这样，该域包含的长度值为初始长度模264 的值。

这两步的作用是使消息长度恰好是512位的整数倍（算法的其余部分要求如此），同时确保不同的消息在填充后不相同。

（3）初始化寄存器：四个32位初始化变量为：

它们也被称为链接变量（chaining variable）

（4）进行算法的主循环：这一步是算法的核心，它是一个包含四个大循环的64步函数，四个大循环结构相同，但每次使用的逻辑函数不同，每一个大循环由对512比特的16步操作组成，即每16步为一轮大循环。

每次操作如下(设 Ai+1、Bi+1 、Ci+1 、Di+1 为第 +1个时钟周期时打入寄存器的值)：

以一下是每轮中用到的四个非线性函数（每轮一个）。

常数ti可以如下选择：在第i步中，ti是4294967296*abs(sin(i))的整数部分，i的单位是弧度。Wi是512位消息分组中的一个，Si是每次循环移位的次数。对每次而言也是固定的常数。

（5）结果输出：所有64步完成之后，将第64步的输出加到四个初始化变量上作为新的初始化变量，进行下一个512比特分组的运算，直到所有分组处理完毕，单次操作图如下：

图1. MD5算法单步操作图

3 算法优化

由上图可以看到，硬件实现时，MD5算法每一步操作中的关键路径在于B的求取（其他三个变量都是直接传递），这个关键路径包括了四个模 232加法运算、三输入变量的逻辑运算、"两个查找表运算及一个循环左移运算，而在FPGA设计中，加法运算最为耗时，四个加法运算至少需要三个加法器级联完成，加法运算严重制约了整个操作的速度，可见要加快算法运行速度就必须在简化这一关键路径上下工夫，经过观察我们发现，在

中对每个周期都是已知的常数，是输入的512比特的一个32位分组，这样，在512比特输入初始化完成后，也可看作固定常数，

Ai是第i时钟周期里寄存器D 的值，而 Di的值又是第i-1周期里的Ci-1 ，即Ai 的`值是第i-1周期里Ci-1的值。

若在第i周期设中间寄存器变量，并令

那么在第i+1周期，

就可以表示为

操作就可以用下面几个式子代替：

其中， Ai+1没有参与任何运算，因此上式可以接着化简为

这样一来，原来一个周期内需要完成三级加法和相应的组合逻辑，现在只需要完成两级加法和部分组合逻辑就行了，大大提高了算法速度，只要在运算开始时加－个周期的初始化即可，简化后的系统框图如下：

图2. 改进后的单步操作图

4 结果比较

由上文中的算法分析部分不难看出，传统的实现方式关键路径是3级32比特加法器延迟和组合逻辑的延迟，而改进的实现方式减少了一级加法器的延迟，并把组合逻辑的延迟分散到不同路径上，因此，采用改进的实现方式大约可以将速度提高到原来的1.5倍左右。同时，为了实现数据的初始化，需要提前一个周期计算出寄存器A的值，因此整个算法的实现需要65个周期。我们采用 VerilogHDL 描述，选择Altera Stratix II EP2S15F672C5 FBGA芯片，在QuartusII6.0上验证通过。由于在FPGA中，连线延时也很关键，而这部分延时不能像加法延时那样通过预先计算并存储在寄存器中来消除一部分，所以实际的MD5改进算法与传统型相比较，速度的提高约为1.3，资源方面由于只是增加了一个时钟节拍，寄存器数量和组合逻辑并没有增加，所以改进型在资源方面和传统型相当。下表为算法改进前后在资源、频率、流量上的比较。

表1. 改进前后资源比较

5 结束语

由表1可见，改进型MD5算法实现，使用的资源并没有明显增加，但速度的改善十分明显，基本实现了用较少的资源得到较高速率的目标，证明了结构的正确性和合理性。实验结果也说明，这种利用寄存器来减少加法器级联从而减少关键路径的实现方法也可用于一般的FPGA硬件设计中。

参考文献

[1] R.Rivest. The MD5 Message-Digest Algorithm，RFC1321 1992。

[2] Jarvinen K， Tommiska M，Skytta J.Hardware implementation analysis of the MD5 hash algorithm.System Sciences，2005.HICSS’05.Proceedings of the 38th Annual Hawaii International conference on 03-06 Jan.2005:298

[3] Bruce Schneier. 应用密码学.北京：机械工业出版社，2000：188～194

[4] William Stallings. 密码编码学与网络安全：原理与实践.北京：电子工业出版社，2001: 216～222。

[5] 夏宇闻.Verilog 数字系统设计教程.航空航天大学出版社，2005

;

Ⅵ FPGA如何实现算法

我个人认为 FPGA的算法实现与C的算法有一定关联但有区别有些黄金算法在硬件语言描述时很费力，不一定好用也只有理论联系实践，从实践中来到实践中去，

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：955

制作脚本网站发布：2025-10-20 08:17:34 浏览：1220

python中的init方法发布：2025-10-20 08:17:33 浏览：915

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1089

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：962

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1315

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：529

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：425

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1093

python股票数据获取发布：2025-10-20 07:39:44 浏览：1078

fpga实现算法

与fpga实现算法相关的资讯