找寻微信撤回的图片(续)

文章“找寻微信撤回的图片”的打脸篇。

1 前情回顾

自从发布文章“找寻微信撤回的图片”之后,骗了不少粉啊。如果你还没有阅读,请关注微信公众号 或者 知乎专栏:Yang的后花园 查看。

VIP快速通道:

总之,之前提出了一种可以找到微信撤回图片的方法。而这篇文章属于“打脸篇”,之前的方法有些许纰漏,在此更正。

2 看不清的真相

之前的说法是,微信的工程师并没有真正把撤回的图片删除,而是加密后藏起来了。其实这样说并不严谨,经过后续测试,发现PC端的确如此,而手机端(Android)撤回的图片是有删除的,但是删除的不干净。

2.1 PC端

微信所有接收到的图片都储在[X]:\Users\[USER]\Documents\WeChat Files\[WECHAT_USER]\Data。里面有一堆以.dat为后缀的文件,他们大小不一,都经过了加密。而加密的方法便是对字节逐一“异或”。

之前的说法是,加密后的字节 = 原始字节 ^ 0x51。为了方便,我们把0x51称作“magic码”。

有网友反馈,magic码不一定是0x51,有的机器是0x50。经过一些测试,结论是,magic码与微信号有关,即不同的微信号在同一台机器可能得到不同的magic码,而同一个微信号在不同的机器上得到了相同的magic码。这里猜测,magic码是由微信号或者微信ID计算得来的。

其实,我们无需关心magic码的计算方式。因为,我们可以肯定的是,.dat文件是图片,而对于JPEG的图片,其对应二进制的第一个字节是0xFF

所以,问题变成了,已知:.dat文件对应二进制的第一个字节 = 0xFF ^ magic码,求magic码。

我们已经知道,如果C=A^B,则A^C=(A^A)^B,而A^A=0,所以A^C=B,即B=A^C。

所以,magic码 = 0xFF ^ 已知.dat文件对应二进制的第一个字节。

修改后的解密代码:

def _decode_pc_dat(self, datfile):
    with open(datfile, 'rb') as f:
        buf = bytearray(f.read())

    magic = 0xff ^ list(buf)[0] if buf else 0x00 #important
    imgfile = re.sub(r'.dat$', '.jpg', datfile)
    with open(imgfile, 'wb') as f:
        newbuf = bytearray(map(lambda b: b ^ magic, list(buf)))
        f.write(str(newbuf))

2.2 手机端(Android)

之前提到,/sdcard/tencent/MicroMsg/diskcache中存放类似cache.data.10的文件,大小在2MB左右。如果把文件后缀改为.jpg,是可以打开的,JPEG文件里实际上是“串联”了一堆图片,可以通过以下代码把所有的图片拆分出来:

def _decode_android_dat(self, datfile):
    with open(datfile, 'rb') as f:
        buf = f.read()

    last_index = 0
    for i, m in enumerate(re.finditer(b'\xff\xd8\xff\xe0\x00\x10\x4a\x46', buf)):
        if m.start() == 0:
            continue

        imgfile = '%s_%d.jpg' % (datfile, i)
        with open(imgfile, 'wb') as f:
            f.write(buf[last_index: m.start()])
        last_index = m.start()

通过实验,发现这些拆分出来的图片并不包含撤回的图片。坏消息是,在手机端没有找到撤回的图片。好消息是,在微信的缓存文件夹里找到了撤回图片的“缩略图”。肯定是没有大图好看啦,但是如果我们早些年看过一种3GP格式的视频的话,这些缩略图的品质还是可以接受的。至少能知道对方发的是啥。

路径为:/sdcard/tencent/MicroMsg/[USER_HASH]/image2/[HASH1]/[HASH2]/th_[HASH],比如这样:/sdcard/tencent/MicroMsg/202cb962ac59075b964b07152d234b70/image2/6b/3a/th_c4ca4238a0b923820dcc509a6f75849b。给文件名加上.jpg后缀就可以打开啦。

由于缓存文件夹里的文件非常多,建议根据修改时间来定位HASH1和HASH2。

3 并不神奇的0x51

之前说的最大的一个bug是,对于PC端图片的加密,工程师选择了一个神奇的数字0x51与各个字节进行异或。而且我还自圆其说了,说什么0x51是“Q”的ASCII码。为啥选择“Q”呢,因为“QQ”。

不忍直视啊,上面已经解释了,magic码并不固定。最后献上修改后的微信图片解密、找回撤回的图片工具: https://github.com/zhangxiaoyang/WechatImageDecoder。PS:目前工具已经兼容Python3。

参考