Malware se při mnoha příležitostech vyhne detekci skenovacími motory a unikne nepoškozený změnou struktury a chování. Tento atribut (pokud je přítomen ve velkých objemech) lze však použít k určení vztahu mezi různými typy malwaru a detekci nových kmenů. Nedávná studie zveřejněná bezpečnostním výzkumníkem Silvio Cesare zdůrazňuje, že kmeny malwaru lze identifikovat podle nich dědictví. Výzkumník vyvinul model s názvem Simseer schopný identifikovat plagiátový software a navázat vztah mezi malwarem.
Web sleduje a kategorizuje dědictví různých druhů malwaru. V době výzkumu si Cesare uvědomil, že ani mírné změny malwaru nemění struktury. Tento faktor použil jako model pro detekci přibližných shod malwaru a na základě této struktury vybral celou rodinu malwaru. Analýza provedená tímto nástrojem pomohla výzkumnému pracovníkovi z oblasti bezpečnosti v Melbourne určit vztah mezi malwarem na základě posouzení jejich podobnosti s existujícím na základě škodlivého kódu a zjistit, zda má ohnisko malwaru odkazy na předchozí ohniska. To vše mohl předvídat tabulkou výsledků analýzy a vizualizací vztahů programu jako evolučního stromu.
Jak Simseer funguje
Simseerovi musíte odeslat archiv ZIP obsahující malware. Maximální velikost souboru na je 100 000 bajtů. Ukázkový název souboru musí být: alfanumerický nebo tečkový a pouze spustitelné soubory PE-32 a ELF-32. Za den je povoleno maximálně 20 příspěvků.
Servery Simseer seskupí vzorky do klastrů, poté prohledají neznámý vzorek, aby zjistily podobnosti se známými rodinami malwaru a identifikovaly nové. Poté zobrazí evoluční strom vlevo, který ukazuje vztahy mezi stávajícím a novým kódem. Čím blíže jsou programy ve stromu, tím blíže jsou příbuzné a pravděpodobně patří do stejné rodiny. Nové kmeny, pokud jsou nalezeny, jsou katalogizovány samostatně, pokud jsou méně než 98% podobné existujícímu kmenu.
Skóre 1.0 znamená, že programy jsou identické. Skóre 0.0 znamená, že programy nejsou vůbec podobné. Programy, které mají podobnost větší nebo rovnou 0.60 jsou varianty navzájem a ve výsledcích jsou zvýrazněny zeleně. Čím jasnější je zelená, tím více jsou programy podobné.
Aby udržel Simseerovu databázi, Cesare stáhne nezpracovaný kód malwaru z otevřené sítě pro sdílení malwaru VirusShare a dalších zdrojů, přičemž do jeho algoritmů se každou noc vkládá 600 MB až 16 GB dat.
Prostřednictvím AusCERT 2013.