Krajta

Používání Google Search API s Pythonem

Používání Google Search API s Pythonem
Není novinkou, že Google je největším vyhledávačem na světě. Spousta lidí půjde navíc, aby se jejich obsah umístil vysoko na Googlu před jakýmkoli jiným vyhledávačem. Díky tomu má Google mnoho kvalitních výsledků pro každé vyhledávání a díky skvělým algoritmům hodnocení můžete očekávat, že na Googlu získáte ty nejlepší výsledky vyhledávání.

To má důsledky. Z toho vyplývá, že na Googlu existuje spousta užitečných dat a že je potřeba tato zlatá data vyškrábat. Získaná data lze použít pro analýzu kvalitních dat a pro objevení skvělých poznatků. Může to být také důležité při získávání skvělých informací o výzkumu jediným pokusem.

Když mluvíme o škrábání, lze to provést pomocí nástrojů třetích stran. Lze to také provést pomocí pythonovské knihovny známé jako Scrapy. Scrapy je považován za jeden z nejlepších nástrojů pro škrábání a lze jej použít ke škrábání téměř jakékoli webové stránky. Další informace najdete v knihovně Scrapy.

Bez ohledu na silné stránky této úžasné knihovny. Odebrání dat na Googlu může být jeden obtížný úkol. Google tvrdě odmítá jakékoli pokusy o škrábání webu a zajišťuje, že skripty pro škrábání ani neučiní tolik 10 žádostí o škrábání za hodinu před zakázáním adresy IP.  Díky tomu jsou skripty pro škrábání třetích stran a osobních webů k ničemu.

Google dává příležitost škrábat informace. Jakékoli škrábání, které by bylo provedeno, však musí být provedeno prostřednictvím rozhraní API (Application Programming Interface).

Jen pro případ, že ještě nevíte, co je rozhraní pro programování aplikací, není se čeho bát, protože uvedu krátké vysvětlení. Podle definice je API sada funkcí a postupů, které umožňují vytváření aplikací, které přistupují k funkcím nebo datům operačního systému, aplikace nebo jiné služby. V zásadě vám API umožňuje získat přístup ke konečnému výsledku procesů, aniž byste museli být do těchto procesů zapojeni. Například teplotní API by vám poskytlo hodnoty Celsia / Fahrenheita místa, aniž byste tam museli jít s teploměrem, abyste mohli provádět měření sami.

Když to uvedeme do rozsahu seškrábání informací z Googlu, API, které bychom používali, nám umožňuje přístup k potřebným informacím, aniž bychom museli psát jakýkoli skript pro škrábání stránky s výsledky vyhledávání Google. Prostřednictvím API můžeme jednoduše získat přístup ke konečnému výsledku (poté, co Google provede „škrábání“ na jejich konci), aniž bychom museli psát jakýkoli kód pro škrábání webových stránek.

I když Google má spoustu API pro různé účely, budeme pro účely tohoto článku používat API JSON Custom Search. Více informací o tomto API najdete zde.

Toto API nám umožňuje bezplatně provádět 100 vyhledávacích dotazů denně, přičemž v případě potřeby jsou k dispozici cenové plány pro vytváření dalších dotazů.

Vytváření vlastního vyhledávače

Abychom mohli používat API JSON Custom Search, potřebovali bychom ID vlastního vyhledávače. Nejprve bychom však museli vytvořit vlastní vyhledávač, který lze provést zde.

Když navštívíte stránku Vlastní vyhledávač, kliknutím na tlačítko „Přidat“ vytvoříte nový vyhledávač.

Do pole „weby k vyhledávání“ jednoduše vložte „www.linuxhint.com “a do pole„ Název vyhledávače “zadejte libovolný popisný název podle svého výběru (preferuje se Google).

Nyní kliknutím na „Vytvořit“ vytvořte vlastní vyhledávací modul a kliknutím na tlačítko „ovládací panel“ na stránce potvrďte úspěšnost vytvoření.

Zobrazí se část „ID vyhledávače“ a pod ní ID, což je ID, které bychom potřebovali pro API, a v dalším textu na něj odkazujeme dále. ID vyhledávače by mělo být soukromé.

Než odejdeme, nezapomeňte, že jsme vložili „www.linuhint.com “dříve. S tímto nastavením bychom získali výsledky pouze ze samotného webu. Pokud chcete získat normální výsledky z celkového vyhledávání na webu, klikněte v levé nabídce na „Nastavení“ a poté na kartu „Základy“. Přejděte do části „Hledat na celém webu“ a zapněte tuto funkci.

Vytvoření klíče API

Po vytvoření vlastního vyhledávače a získání jeho ID by bylo další vytvořit klíč API. Klíč API umožňuje přístup ke službě API a po vytvoření by měl být udržován v bezpečí, stejně jako ID vyhledávače.

Chcete-li vytvořit klíč API, navštivte web a klikněte na tlačítko „Získat klíč“.

Vytvořte nový projekt a pojmenujte ho popisně. Po kliknutí na „další“ byste měli vygenerovaný klíč API.

Na další stránce bychom měli různé možnosti nastavení, které pro tento výukový program nejsou nutné, takže stačí kliknout na tlačítko „uložit“ a jsme připraveni jít.

Přístup k API

Získání ID vlastního vyhledávání a klíče API jsme udělali dobře. Dále použijeme API.

I když máte přístup k API s jinými programovacími jazyky, budeme to dělat s Pythonem.

Abyste měli přístup k API pomocí Pythonu, musíte si nainstalovat klienta Google API pro Python. To lze nainstalovat pomocí instalačního balíčku pip pomocí níže uvedeného příkazu:

pip nainstalujte google-api-python-client

Po úspěšné instalaci můžete nyní importovat knihovnu v našem kódu.

Většina z toho, co se bude dělat, bude prostřednictvím níže uvedené funkce:

od googleapiclient.objev import sestavení
my_api_key = "Váš klíč API"
my_cse_id = "Vaše ID CSE"
def google_search (search_term, api_key, cse_id, ** kwargs):
service = build ("celní vyhledávání", "v1", developerKey = api_key)
res = služba.cse ().seznam (q = search_term, cx = cse_id, ** kwargs).vykonat()
návrat res

Ve výše uvedené funkci je my_api_key a my_cse_id proměnné by měly být nahrazeny klíčem API a ID vyhledávače jako hodnoty řetězce.

Nyní je třeba zavolat pouze funkci předávající hledaný výraz, klíč api a ID cse.

result = google_search ("Káva", my_api_key, my_cse_id)
tisk (výsledek)

Výše uvedené volání funkce vyhledá klíčové slovo „Káva“ a přiřadí vrácenou hodnotu parametru výsledek proměnná, která se poté vytiskne. Objekt JSON je vrácen API pro vlastní vyhledávání, proto by jakákoli další analýza výsledného objektu vyžadovala malou znalost JSON.

To lze vidět z ukázky výsledku, jak je vidět níže:

Objekt JSON vrácený výše je velmi podobný výsledku z vyhledávání Google:

souhrn

Odebírání informací z Googlu opravdu nestojí za stres. Rozhraní Custom Search API usnadňuje život všem, protože jediným problémem je analýza objektu JSON pro potřebné informace. Připomínáme, že své ID vlastního vyhledávače a klíčové klíče API vždy nechávejte soukromé.

Hry Jak nainstalovat a hrát Doom na Linuxu
Jak nainstalovat a hrát Doom na Linuxu
Úvod do Doom Série Doom vznikla v 90. letech po vydání původního Doomu. Byl to okamžitý hit a od té doby herní série získala řadu ocenění a původní Do...
Hry Vulkan pro uživatele Linuxu
Vulkan pro uživatele Linuxu
S každou novou generací grafických karet vidíme, že vývojáři her posouvají hranice grafické věrnosti a přibližují se k fotorealismu. Ale navzdory vešk...
Hry OpenTTD vs Simutrans
OpenTTD vs Simutrans
Vytvoření vlastní simulace dopravy může být zábavné, uvolňující a mimořádně lákavé. Proto se musíte ujistit, že vyzkoušíte co nejvíce her, abyste našl...