我试图抽取表的Pdf文件不在适当的格式,我想。 该表格在这些Pdf文件有一个表的格式,但不适当地封闭,与竖向的边界。 我会附上样本pdf和输出这两个图书馆。 当我试图使用tabula对表检测,一个空白datadrame返回的所有网页上以pdf。
该0单页,1,2个用于具体页:2 该网页数:25 没有桌上发现了这个网页通过tabula.
当我使用的卡有同样没有应答时我用的 flovor='lattice'
该0单页,1页,2页表中检测到tabula,3为具体网页:3 该0格或1流:0 该网页数:25 没有桌上找到这页,柯莱特。
当我用 flovor='stream'
我得到一个数据框,每个线上读取行通过符合标签的数据分离,但它将包括正常的文本,以及在据框.
我只是需要一种有效的方法以检测表和提取相同的数据,如果垂直包围表的线是不存在的。 两tabula和柯莱特图书馆工作的罚款,如果表在适当的格式括通过垂直和水平线。