zoukankan      html  css  js  c++  java
  • pdfplumber解析票据PDF文档,部分中文字体返回CID,无法解析

    问题:部分汉字字体无法解析,出现CID代号

    环境:Ubuntu18.04,PDF文件内容必须为文字,图片不支持文字解析(Linux可以打开PDF文件右键,如果有复制图像选项,则该PDF文件内容为图像)

    解决:pdfminer需要重新重新编译一下,官方文档首页有提示,针对CJK字体的支持

    python tools conv_cmap.py pdfminer cmap Adobe-CNS1 cmaprsrc cid2code_Adobe_CNS1.txt cp950 big5
    python tools conv_cmap.py pdfminer cmap Adobe-GB1 cmaprsrc cid2code_Adobe_GB1.txt cp936 gb2312
    python tools conv_cmap.py pdfminer cmap Adobe-Japan1 cmaprsrc cid2code_Adobe_Japan1.txt cp932 euc-jp
    python tools conv_cmap.py pdfminer cmap Adobe-Korea1 cmaprsrc cid2code_Adobe_Korea1.txt cp949 euc-kr
    python setup.py install

    参考:https://zhuanlan.zhihu.com/p/29410051 https://blog.csdn.net/qq_26984605/article/details/80859278

  • 相关阅读:
    10.15
    10.14
    11.12
    10.10
    10.9
    如何向jar包里写文件
    mycat的配置文件
    启动spring boot打成的zip包脚本
    通俗易懂的rpc原理
    当Mockito遭遇使用注解注入的变量
  • 原文地址:https://www.cnblogs.com/WMT-Azura/p/15512225.html
Copyright © 2011-2022 走看看