Pandy .read_csv

Už jsem hovořil o některé historii a použití pro pandy knihovny Python. pandy byly navrženy z důvodu potřeby efektivní knihovny finančních analýz a manipulace pro Python. Aby bylo možné načíst data pro analýzu a manipulaci, poskytuje panda dvě metody, DataReader a read_csv. Pokryl jsem tu první. Posledně jmenovaný je předmětem tohoto tutoriálu.

.read_csv

Existuje velké množství bezplatných online úložišť dat, která obsahují informace o různých oborech. Některé z těchto zdrojů jsem zahrnul do sekce odkazů níže. Protože jsem zde demonstroval integrovaná rozhraní API pro efektivní načítání finančních dat, použiji v tomto kurzu jiný zdroj dat.

Data.gov nabízí obrovský výběr bezplatných dat o všem od změny klimatu po U.S. výrobní statistiky. Stáhl jsem si dvě datové sady pro použití v tomto tutoriálu. První je průměrná denní maximální teplota pro Bay County na Floridě. Tato data byla stažena z U.S. Sada nástrojů pro odolnost vůči změně klimatu pro období od roku 1950 do současnosti.

Druhým je průzkum komoditních toků, který měří režim a objem dovozu do země po dobu 5 let.

Oba odkazy na tyto datové sady jsou uvedeny v sekci odkazů níže. The .read_csv metoda, jak je zřejmé z názvu, načte tyto informace ze souboru CSV a vytvoří instanci a DataFrame z tohoto souboru dat.

Používání

Kdykoli použijete externí knihovnu, musíte říct Pythonu, že je třeba ji importovat. Níže je řádek kódu, který importuje knihovnu pand.

importovat pandy jako pd

Základní použití .read_csv metoda je níže. Tím se vytvoří instance a naplní se a DataFrame df s informacemi v souboru CSV.

df = pd.read_csv ('12005-year-hist-obs-tasmax.CSV ')

Přidáním dalších několika řádků můžeme zkontrolovat prvních a posledních 5 řádků z nově vytvořeného DataFrame.

df = pd.read_csv ('12005-year-hist-obs-tasmax.CSV ')
tisk (srov.hlava (5))
tisk (srov.ocas (5))

Kód načetl sloupec pro rok, průměrnou denní teplotu ve stupních Celsia (tasmax), a zkonstruoval indexační schéma založené na 1, které se zvyšuje pro každý řádek dat. Je také důležité si uvědomit, že hlavičky jsou vyplněny ze souboru. Při základním použití výše uvedené metody je odvozeno, že záhlaví jsou na prvním řádku souboru CSV. To lze změnit předáním jiné sady parametrů metodě.

Parametry

Poskytl jsem odkaz na pandy .read_csv dokumentace v odkazech níže. Existuje několik parametrů, které lze použít ke změně způsobu čtení a formátování dat v souboru DataFrame.

Existuje spousta parametrů pro .read_csv metoda. Většina není nutná, protože většina stažených datových souborů bude mít standardní formát. To jsou sloupce v prvním řádku a oddělovač čárky.

Existuje několik parametrů, které v tutoriálu zvýrazním, protože mohou být užitečné. Komplexnější průzkum lze provést na stránce dokumentace.

index_col

index_col je parametr, který lze použít k označení sloupce, který obsahuje index. Některé soubory mohou obsahovat rejstřík a jiné ne. V naší první datové sadě jsem nechal python vytvořit index. To je standard .read_csv chování.

V našem druhém souboru dat je zahrnut index. Níže uvedený kód načte DataFrame s daty v souboru CSV, ale místo vytvoření přírůstkového celočíselného indexu používá sloupec SHPMT_ID obsažený v datové sadě.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
tisk (srov.hlava (5))
tisk (srov.ocas (5))

I když tato datová sada používá stejné schéma pro index, jiné datové sady mohou mít užitečnější index.

nrows, skiprows, usecols

U velkých datových sad možná budete chtít načíst pouze části dat. The nrow, skoky, a uživatelské použití parametry vám umožní rozdělit data obsažená v souboru.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nrows = 50)
tisk (srov.hlava (5))
tisk (srov.ocas (5))

Přidáním nrow parametr s celočíselnou hodnotou 50, .tail call nyní vrací linky až 50. Zbytek dat v souboru se neimportuje.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
tisk (srov.hlava (5))
tisk (srov.ocas (5))

Přidáním skoky parametr, náš .hlava col v datech nezobrazuje počáteční index 1001. Protože jsme přeskočili řádek záhlaví, nová data ztratila záhlaví a index na základě dat souboru. V některých případech může být lepší rozdělit data do a DataFrame spíše než před načtením dat.

The uživatelské použití je užitečný parametr, který umožňuje importovat pouze podmnožinu dat podle sloupce. Může být předán nulový index nebo seznam řetězců s názvy sloupců. Níže uvedený kód jsem použil k importu prvních čtyř sloupců do našeho nového DataFrame.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID',
nrows = 50, usecols = [0,1,2,3])
tisk (srov.hlava (5))
tisk (srov.ocas (5))

Z našeho nového .hlava volej, naše DataFrame nyní obsahuje pouze první čtyři sloupce z datové sady.

motor

Jeden poslední parametr, o kterém si myslím, že by se v některých souborech dat mohl hodit, je motor parametr. Můžete použít buď motor na bázi C, nebo kód založený na Pythonu. Motor C bude přirozeně rychlejší. To je důležité, pokud importujete velké datové sady. Výhodou syntaktické analýzy Pythonu je sada bohatší na funkce. Tato výhoda může znamenat méně, pokud načítáte velká data do paměti.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ',
index_col = 'SHIPMT_ID', engine = 'c')
tisk (srov.hlava (5))
tisk (srov.ocas (5))

Následovat

Existuje několik dalších parametrů, které mohou rozšířit výchozí chování .read_csv metoda. Lze je najít na stránce dokumentů, na kterou jsem níže odkazoval. .read_csv je užitečná metoda pro načítání datových souborů do pand pro analýzu dat. Protože mnoho bezplatných datových sad na internetu nemá API, bude to nejužitečnější pro aplikace mimo finanční data, kde jsou k dispozici robustní API pro import dat do pand.

Reference

https: // pandy.pydata.org / pandas-docs / stabilní / generované / pandy.read_csv.html
https: // www.data.vláda /
https: // sada nástrojů.klima.gov / # klimatický průzkumník
https: // www.sčítání lidu.gov / econ / cfs / pums.html

Výukový program pro pandy read_csv