跳至主要內容
PDF文本解析

最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标。


yczha大约 13 分钟pythonPDF专题officePDF内容解析pdfminer3K
PDF内容解析

这篇文章主要介绍如何使用Python[3.6版本]中的PDFminer3k 模块来抽取PDF内容,包括文本、图像、曲线等。


yczha大约 2 分钟pythonPDF专题officePDF内容解析pdfminer3K
PDF关键词抽取

功能介绍:程序从txt文件中读取内容然后抽取指定内容,要抽取的关键词需要写入Excel中,一个PDF样本如下示例:


yczha小于 1 分钟pythonPDFofficepythonexcelPDF