文本处理 - 求教使用python库提取pdf的方法?
怪我咯
怪我咯 2017-04-18 10:24:58
[Python讨论组]

使用过pypdf 对英文pdf文档处理比较简单,但是对中文的支持好像不太好

使用过textract 看文档支持的格式比较多方法也比较简单,但是老师出错

-- coding: utf-8 --

import textract
import pyPdf
import pdf2text
import pdfminer
import chardet

text = textract.process("F:ll.pdf",method = 'pdfminer')
print text

这个 出错是编码问题

-- coding: utf-8 --

import textract
import pyPdf
import pdfminer
import chardet

text = textract.process("F:ll.pdf",method = 'pdfminer')
print text

这个出错类型不清楚

少使用了pdf2text库,但是出错情况好像不一样。

pdfminer库还没看过,看着好像麻烦一些, 求解一下解析提取中文的pdf的方法。谢谢

怪我咯
怪我咯

走同样的路,发现不同的人生

全部回复(0)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号