前因:业务要求希望对部分页面展示的内容整合成可下载的pdf文件。由于没有前端支持样式HTML转PDF类的方案全部pass,所以选择使用有样式的word+freemarker模板引擎生成word文件,然后通过office工具转换pdf。
这个策略在windows下完全正常,linux下只能显示乱码。然后发现目前的linux下的office工具无法识别wordxml这种伪word文件,导致转换失败,展示了xml的文件内容。
于是尝试解构docx文件,大概的流程如下图: