Excel Biff8 与 OpenXML 加密文档的读取

收藏

Post by "J2.NETe", 2008-09-09, 14:35
-----------------------------------------------------

近日来，研究了一下Excel Biff8（xls 97-2007）与OpenXML（ECMA-376）的加密文档的读取（这还是为了我们世界先进Grid而做的 ^__^）。有些成果，写在这里，希望能给要做类似功能的XD们一些参考。
如有不详，请联系：Owen.Liu@GrapeCity.com / J2.NETe@gmail.com
前提：
1. 加密文档：指Wookbook级的加密，就是在Save Excel文档时在General Settings中设置open password之后的文档；
2. 打开：需要用户传入密码。并非破解。但请勿将本文方法添加暴力模块使用 :-) ；
3. 本文涉及较多为，密钥计算，关于解密细节请参考微软相关文档；
使用的加密算法： RC4, SHA1, MD5, AES-128（其中RC4并不包含在所有版本的.NET Framework中，AES算法可以在.NET Framework 3.5中找到）
本文示例依赖 .NET Framework 3.5

A. Biff8 的加密文档读取
1. 通过文档中FILEPASS的record取得，文档的加密信息（关于Biff文档的格式问题，请参阅Biff的微软文档）
其中Biff8可以使用两种方法加密：Biff8标准加密算法和Biff8扩充加密算法。本文主要讨论最常用的Biff标准加密算法
2.  通过FILEPASS的结构，获得如下信息：
   salt（加密随机数，16 bytes）
   password verifier （密码效验器，16 bytes）
   password verifier hash（密码效验器Hash，16 bytes）
3. 通过以上信息，生成解密key。并通过密码效验器，验证密码：
i. 将密码转化成unicode数组，并进行MD5 Hash；
ii. 将hash结果与salt串联，然后将byte数组，反复串联16次（336 bytes），然后再进行MD5 Hash；
iii. 将上步hash结果的前五位，串联上4 bytes的block值（在密码验证阶段为0，在以后解密阶段为block的index），然后进行MD5 Hash；
iv. 将上步hash结果的前16位，作为key
v.  使用RC4对称加密算法，将password verifier和password verifier hash分别解密，然后对password verifier的解密结果进行MD5 hash，其值应和password verifier hash的解密结果一致，即为密码正确。
vi.  之后进行逐个record的解密。excel biff8加密原则基本为，record的标示不加密，长度不加密，个别record不加密（见文档）；另外，在record解密时，还需要通过block的值重新计算解密key，block的大小为1024.
4. 详细请参照示例代码；

B. OpenXML(ECMA-376) 加密文档的读取
1. 通常来说，xlsx文件相当于一个zip文件，可以用zip程序，直接打开。而在加密后，为了安全性考虑，微软使用了 structured storage（一种OLE文档存储方式）存储（可以用7-zip或者OLE document viewer打开，windows也有相应API来操作此类结构）。在上述文档中，有一个叫做“EncryptedPackage”加密的package，就是一个zip包通过AES算法进行加密之后的结果。我们将使用和A一样的方式来检查密码，但生成key的方法不同；OpenXML的加密类型也有多种，我们这里就讨论常用的用AES-128进行加密的流程；
2.  通过文档的“EncryptedInfo”部分，需要过的一下信息（关于此部分的结构，请参考[MS-OFFCRYPTO].pdf）
   salt（加密随机数，16 bytes）
   password verifier （密码效验器，16 bytes）
   password verifier hash（密码效验器Hash，32 bytes）
3. 通过以上信息，生成解密key。并通过密码效验器，验证密码：
i.  首先，定义一个H函数，其有两个输入，内部使用SHA1算法将两个输入串联之后的结果hash返回；
  ii. 先将salt与password（password的unicode数组）进行H计算，h = H(salt, password) ；
  iii.然后设iterator为0x00000000，将其转为4byte的数组，然后进行H计算，h1 = H(iterator, h);
  iv.将上面的iterator递增一，然后再与h1进行H计算，h2 = H(iterator,h1)，然后将这个递增和计算过程重复50000次，最后计算过的iterator为49999即可；
  v. 现在有计算结果h50000，将h50000再与0x00000000(4 byte数组)进行H计算，Hfinal = H(h50000, 0x00000000)；
  vi. 生成一个64byte的数组，将每位都初始化成0x36，然后将这个数组与Hfinal异或；(关于这个地方，微软文档中写的有错误，按照原文的方法生成的key不正确，要不是文档的作者回信告诉我要使用这个法子，就算我想破头也想不出来啊 T__T)
  vii.将异或结果，进行SHA1 hash，结果的前16byte就是解密的key；
  viii.初始化AES算法，key长度为128，模式为ECB模式，Padding为none；然后将password verifier 和password verifier hash分别解密；
  ix. password verifier 解密后的SHA1 hash结果应该与password verifier hash解密后的前20byte相同；
4. 关于"EncryptedPackage" 的解密则更为简单，只许将“EncryptedPackage”读入，去除前8byte的size信息后，进行AES解密，即为未加密的标准openxml文档。

参考：
[MS-OFFCRYPTO].pdf
[MS-XLS].pdf
ECMA-376 standards

Reply by "winnow", 2008-09-10, 1:17
-----------------------------------------------------
总结一下, 关于这两种基于密码的加密方法, 基本上都是基于RFC2898 建议, 思想是这样:
输入是用户的密码:password, 输出是提供给加密函数的密钥:key.
考虑安全, 需要使同样的password生成的key不一样, 这样用相同的password加密后的结果就无法比较. 需要一个随机数salt.
另外, 为了使暴力破解的代价增大, 考虑使用一个循环多次的过程, 需要循环次数:iteration_count.
概念上, 生成方法为: 将password和salt进行某种运算, 配合一个Hash函数, 以某种方式循环iteration_count次, 在最后的结果里取一部分作为key输出.
具体参照RFC2898中的建议方法PBKDF1和PBKDF2.
这样, 用户输入的密码与一个随机数组合, 经过一定代价的运算, 就生成了可以供加密函数使用的密钥. 使用这个密钥和一个加密函数, 就可以进行加密了.

在应用中, 为了快速判断密码是否错误. 生成一个随机数verifier, 用一个Hash函数计算verifier的hash值:verifier_hash,  分别加密verifier和verifier_hash并保存.
解密的时候, 先分别解密出verifier和verifier_hash, 计算verifier的hash值, 与verifier_hash比较, 如果一致, 即说明密码正确.

Carl · Carl

补充上示例代码。

		自动登录	找回密码
密码			立即注册

Excel Biff8 与 OpenXML 加密文档的读取

1 个回复

活字格认证

微信认证勋章