SM4 算法快速软件实现 - bitslicing #116

emmansun · 2023-04-20T08:18:56Z

emmansun
Apr 20, 2023
Maintainer

emmansun · 2023-05-05T00:37:37Z

emmansun
May 5, 2023
Maintainer Author

按文献2的实现，结果不对：

d6, 90, d3, 51, 31, d4, a9, b6, 16, 85, 56, 24, 8a, c1, 2c, d9, 
d0, 9f, 9a, bb, 51, be, 39, 26, e3, a6, db, d3, d3, 46, 06, 88, 
95, 35, 25, ac, 91, d2, fc, 4a, 33, df, 0b, 40, d0, 5a, 0f, 5f, 
66, e5, 1c, d3, f4, a4, d5, 8c, 85, f5, 61, e8, 50, ce, c6, 3a, 
47, 07, f9, d3, f3, 73, 16, 9e, d3, 34, 6c, ff, e6, d3, 4f, 12, 
87, 0e, 9a, 4f, 26, 3d, da, d3, 30, f7, f5, ba, 70, 56, d3, d3, 
23, 24, 33, 63, 63, b0, 77, ec, c7, 82, 7c, 1f, d0, 4e, 78, 32, 
3f, 9e, 7c, b6, 83, d3, 25, 73, 70, 0b, d3, 79, f6, 75, 57, 74, 
36, 5a, 23, d2, 91, c7, fa, 35, a3, 85, f2, 02, 69, 61, 15, cc, 
a5, 09, 5d, 53, f7, 34, a6, 2f, f1, 80, d3, aa, d3, 02, 2a, da, 
4c, e0, e2, 2e, 1a, 55, d3, f9, c5, 13, 9c, 1d, 84, 6e, e9, 5f, 
d5, b3, 37, be, de, c1, dc, 2f, 03, 7f, d6, 72, d1, d3, 66, 6c, 
b0, 26, fe, 1c, a5, ea, 26, 7f, d4, e4, 95, 7c, 8f, 10, 5a, 31, 
11, 94, d3, b5, b6, b1, 59, 78, aa, 74, 1f, a0, 3a, e5, b4, 5f, 
b4, 63, a0, a9, 76, b3, d3, 0a, fe, d8, cf, 09, c5, 7f, 7a, 20, 
6b, 55, 40, 5c, b9, 45, 9a, c8, 74, 35, 0f, 2c, 93, dc, c0, da,

2 replies

emmansun May 28, 2023
Maintainer Author

经与论文作者联系，龚征、王磊两位老师及时回应，应该是论文编辑问题，论文中的描述（主要是middle，bottom）有误。

creed-sdu Nov 21, 2024

最近在搞个优化，还好看到你这，要不我还怀疑我实现哪有问题。。

emmansun · 2023-05-05T06:49:43Z

emmansun
May 5, 2023
Maintainer Author

按文献4的实现是ok的

0 replies

emmansun · 2023-05-05T08:59:07Z

emmansun
May 5, 2023
Maintainer Author

文献1的Middle方法应该是错误的

0 replies

emmansun · 2023-05-14T02:53:35Z

emmansun
May 14, 2023
Maintainer Author

0 replies

emmansun · 2023-05-20T02:02:49Z

emmansun
May 20, 2023
Maintainer Author

这种大并行的算法，一个很重要的优化方向就是内存的使用。如果amd64 CPU有avx2特性，大概率有AES-NI，用AES-NI+AVX2 和用AVX2+bitsliced比较，目前来看还是AES-NI+AVX2有优势：灵活(针对加密数据长度以及加密模式)，内存占用小，性能还算好。目前结论：emmansun/sm4bs#1

0 replies

emmansun · 2023-06-03T03:14:07Z

emmansun
Jun 3, 2023
Maintainer Author

经过持续优化，256组并行比特切片实现的性能终于超过了目前的AES-NI + AVX2实现，不过不多。

1 reply

emmansun Aug 30, 2023
Maintainer Author

AES-NI + AVX2实现尽量使用寄存器增加吞吐量后，目前还是比AVX2 + 比特切片的方案性能好。

SM4 算法快速软件实现 - bitslicing #116

Uh oh!

Uh oh!

emmansun Apr 20, 2023 Maintainer

Replies: 6 comments · 3 replies

Uh oh!

Uh oh!

emmansun May 5, 2023 Maintainer Author

Uh oh!

emmansun May 28, 2023 Maintainer Author

Uh oh!

creed-sdu Nov 21, 2024

Uh oh!

emmansun May 5, 2023 Maintainer Author

Uh oh!

emmansun May 5, 2023 Maintainer Author

Uh oh!

Uh oh!

emmansun May 14, 2023 Maintainer Author

Uh oh!

Uh oh!

emmansun May 20, 2023 Maintainer Author

Uh oh!

emmansun Jun 3, 2023 Maintainer Author

Uh oh!

emmansun Aug 30, 2023 Maintainer Author

emmansun
Apr 20, 2023
Maintainer

Replies: 6 comments 3 replies

emmansun
May 5, 2023
Maintainer Author

emmansun May 28, 2023
Maintainer Author

emmansun
May 5, 2023
Maintainer Author

emmansun
May 5, 2023
Maintainer Author

emmansun
May 14, 2023
Maintainer Author

emmansun
May 20, 2023
Maintainer Author

emmansun
Jun 3, 2023
Maintainer Author

emmansun Aug 30, 2023
Maintainer Author