PDF

Jak extrahovat tabulky z dokumentů PDF

Jak extrahovat tabulky z dokumentů PDF

Tento článek vám ukáže, jak na to extrahovat tabulky z dokumentů PDF. Můžete mít mnoho souborů PDF, které obsahují více tabulek, které chcete použít samostatně. Kopírování a vkládání těchto tabulek není dobrá volba, protože nemusí poskytnout očekávaný výstup, proto potřebujete další jednoduché možnosti, které mohou extrahovat tabulky ze souboru PDF a uložit tyto tabulky jako samostatné soubory.

Většina z nich Nástroje pro extrakci tabulky PDF nemůže pomoci, pokud je naskenována tabulka PDF. V takovém případě byste měli nejprve prohledat PDF a poté vyzkoušet tyto možnosti.

Extrahujte tabulky z dokumentů PDF

V tomto příspěvku jsme přidali 2 bezplatné online služby a 3 bezplatný software pro extrakci tabulek ze souboru PDF:

  1. PDF do XLS
  2. PDFtoExcel.com
  3. Tabula
  4. ByteScout PDF Multitool
  5. Sejda PDF Desktop.

1] PDF do XLS

PDF na XLS je jednou z nejlepších možností pro extrahování tabulek z PDF. Má dvě funkce, díky nimž je praktický. Tabulky můžete načíst z 20 PDF dokumenty společně. Extrakce tabulky PDF je také automatická. Generuje výstup jako XLSX soubor. Pokud má PDF více tabulek, pak je každá tabulka uložena samostatně na různé listy výstupního souboru XLSX.

Otevřete domovskou stránku této služby. Poté přetáhněte soubory PDF nebo je použijte NAHRÁT SOUBORY knoflík. Každý nahraný soubor PDF je automaticky převeden do souboru ve formátu XLSX. Když jsou výstupní soubory připravené, můžete je stahovat jeden po druhém nebo si stáhnout soubor ZIP, který bude obsahovat všechny výstupní soubory.

2] PDFtoExcel.com

PDFtoExcel.Služba com může extrahovat tabulky z jednoho PDF najednou, ale podporuje více platforem pro nahrávání PDF. Podporuje to OneDrive, plocha počítače, Disk Google, a Dropbox platformy pro nahrání souboru PDF. Proces převodu je také automatický.

Tato domovská stránka služby je zde. Tam vyberte možnost nahrávání a přidejte PDF. Poté automaticky nahraje a převede soubor PDF do souboru Excel (XLSX). Když je výstup připraven, zobrazí se odkaz ke stažení pro uložení výstupního souboru obsahujícího tabulky PDF.

Poznámka: Ačkoli tato služba uvádí, že dokáže extrahovat také tabulky ze skenovaných souborů PDF, nefungovalo to pro mě. Můžete si to přesto vyzkoušet pro naskenované PDF.

3] Tabula

Tabula je výkonný software, který dokáže automaticky detekovat tabulky přítomné v PDF a poté vám umožňuje tyto tabulky uložit jako TSV, JSON, nebo CSV soubor. Můžete vybrat možnost uložení samostatných souborů CSV pro každou tabulku PDF nebo uložit všechny tabulky do jednoho souboru CSV.

Ke stažení open-source Extraktor tabulky PDF, klikněte sem. To také vyžaduje Javu spustit a úspěšně používat.

Rozbalte stažený soubor ZIP a spusťte jej tabula.exe soubor. Otevře se stránka ve vašem výchozím prohlížeči. Pokud stránka není otevřená, přidejte do prohlížeče http: // localhost: 8080 a stiskněte Enter.

Nyní uvidíte jeho rozhraní, kde můžete použít Procházet možnost přidat PDF. Poté stiskněte Import knoflík. Po přidání souboru PDF se na jeho rozhraní zobrazí stránky PDF.

Použití Automaticky detekovat tabulky Tlačítko a automaticky zvýrazní všechny tabulky v daném PDF. Tabulku můžete také ručně zvýraznit výběrem konkrétní tabulky. Pokud chcete, můžete také odebrat vybrané tabulky tvé volby.

To vám pomůže uložit pouze ty tabulky, které chcete. Když jsou zvýrazněny tabulky PDF, klikněte na Náhled a export extrahovaných dat knoflík.

Nakonec vyberte z rozevírací nabídky dostupné v horní části výstupní formát a stiskněte Vývozní knoflík. Tím se uloží tabulky PDF do vámi vybraného souboru výstupního formátu.

4] ByteScout PDF Multitool

Jak název napovídá, tento software je dodáván s několika nástroji. Má nástroje jako např převést PDF na vícestránkový TIFF, otočit dokument PDF, učinit PDF nevyhledatelným, optimalizovat PDF, přidat obrázek do PDF, a více. Funkce detektoru tabulek PDF je také tam, což je docela úžasné. Výhodou tohoto nástroje je, že můžete extrahovat tabulky ze skenovaného PDF také. Můžete detekovat tabulky na více stránkách a poté tyto tabulky extrahovat jako CSV, XLS, XML, TXT, nebo JSON formátovat soubor. Před extrakcí vám také umožní nastavit a stránkový rozsah extrahovat tabulky pouze ze zadaných stránek.

Tento software můžete získat zde. to je zdarma pro nekomerční použití pouze. Po instalaci spusťte tento software a použijte Otevřít dokument možnost přidat PDF. Poté klikněte na ikonu Zjistit tabulky nástroj, jak je zvýrazněno na obrázku výše. Tento nástroj je k dispozici pod Extrakce dat kategorie.

Otevře se okno, kde můžete nastavit podmínky pro detekci tabulek. Můžete například nastavit minimální počet sloupců, řádků, minimální zalomení řádků mezi tabulkami, nastavit režim detekce tabulky na tabulku s ohraničením nebo bez ohraničení atd. Použijte možnosti nebo ponechte výchozí nastavení.

Poté stiskněte Zjistit další tabulku tlačítko v tomto poli. Bude identifikovat a vybrat tabulku na aktuální stránce. Tímto způsobem můžete přejít na jinou stránku a zjistit více tabulek.

Až budete hotovi, použijte Pokračujte k extrakci tlačítko a vyberte výstupní formát. Nakonec můžete pomocí voleb uložit tabulky z aktuální stránky nebo definovat rozsah stránek a uložit výstup.

Nástroj poskytuje uspokojivý výstup. Někdy ale může detekovat jiný obsah v PDF a nemusí být schopen extrahovat tabulky z více stránek. V takovém případě byste jej měli použít k načtení a uložení tabulek jeden po druhém.

5] Sejda PDF Desktop

Sejda PDF Desktop je také víceúčelový software. Může optimalizovat nebo komprimovat PDF, přidat vodoznak do PDF, odstranit omezení z PDF, upravit dokument PDF atd. Jeho bezplatný plán má však omezení. Ve volném plánu lze provádět pouze 3 úkoly denně. Limit velikosti PDF je také 50 MB nebo 10 stránek.

Můžete použít jeho PDF do aplikace Excel nástroj pro převod k extrakci tabulek PDF. Automaticky detekuje tabulky na stránkách PDF a umožňuje vám tyto tabulky uložit jako XLSX nebo CSV.

Jeho odkaz ke stažení je zde. Po instalaci použijte nástroj PDF to Excel z jeho hlavního rozhraní. Po výběru tohoto nástroje použijte Vyberte soubory PDF knoflík. K bezplatnému plánu lze přidat pouze jedno PDF.

Po přidání souboru PDF se zobrazí Převést PDF na CSV a Převod PDF do aplikace Excel tlačítka. Použijte tlačítko a poté můžete uložit výstup do požadovaného umístění v počítači.

Jeho nástroj pro detekci tabulek PDF je dobrý. Nemusíte ručně detekovat tabulky. Někdy však může obsahovat další textový obsah jako tabulku PDF a uložit jej do výstupu. Ale celkové výsledky jsou dobré.

To je vše.

Toto je několik dobrých nástrojů pro extrahování tabulek z PDF. Software Tabula je efektivnější než jiné nástroje. Přesto můžete vyzkoušet všechny nástroje a zkontrolovat, která pomáhá.

Podobné čtení:

Hry Jak používat AutoKey k automatizaci linuxových her
Jak používat AutoKey k automatizaci linuxových her
AutoKey je nástroj pro automatizaci stolních počítačů pro systémy Linux a X11, programovaný v programech Python 3, GTK a Qt. Pomocí jeho funkcí skript...
Hry Jak zobrazit počítadlo FPS v linuxových hrách
Jak zobrazit počítadlo FPS v linuxových hrách
Hraní na Linuxu získalo velký tlak, když společnost Valve v roce 2012 oznámila podporu systému Linux pro klienta Steam a jejich hry. Od té doby se mno...
Hry Jak stáhnout a přehrát Sid Meier's Civilization VI v systému Linux
Jak stáhnout a přehrát Sid Meier's Civilization VI v systému Linux
Úvod do hry Civilization 6 je moderní pojetí klasického konceptu představeného v sérii her Age of Empires. Myšlenka byla docela jednoduchá; začali bys...