Vědecký tým z několika britských univerzit vycvičil model hlubokého učení tak, že dokáže ze zvuků stisknutých kláves zaznamenaných pomocí mikrofonu identifikovat napsané znaky s přesností 95 %. O výsledcích experimentů informuje internetový magazín Bleeping Computer.
Když byla k tréninku algoritmu pro klasifikaci zvuků použita komunikační aplikace Zoom, klesla přesnost predikce na 93 %. To je stále nebezpečně vysoká hodnota, neboť tato ve své podstatě relativně jednoduchá forma útoku umožňuje získávání citlivých údajů, včetně přihlašovacích jmen a hesel.
Odhalený zvuk stisknutých kláves
Na rozdíl od jiných forem útoku, vyžadujících specifické podmínky, je „akustický útok“ výrazně jednodušší. Přispívá k tomu skutečnost, že mnoho zařízení je dnes vybaveno mikrofonem, který je schopen dostatečně kvalitního záznamu zvuku. Ve spojení se strojovým učením tak vzniká velmi nebezpečná kombinace.
Prvním krokem útoku je zaznamenání stisků kláves – tato data jsou potřebná pro trénování predikčního algoritmu. Toho lze dosáhnout například prostřednictvím mikrofonu v blízkosti počítače či notebooku infikovaného malwarem s přístupem k mikrofonu. Alternativně lze stisky kláves zaznamenat prostřednictvím hovoru přes komunikační aplikaci Zoom, kdy účastník schůzky provede korelaci mezi napsanými zprávami a jejich zvukovým záznamem.
Vědci shromáždili tréninková data tak, že na MacBooku Pro stiskli 25× 36 kláves a zaznamenali zvuk vydaný při každém stisku. Poté z nahrávek vytvořili křivky a spektrogramy, které vizualizují identifikovatelné rozdíly pro každou klávesu, a rozšířili signály tak, aby je bylo možné použít k jednoznačnější identifikaci stisknutých kláves.
Analýza zvuků v podobě obrázků
Obrázky spektrogramů byly použity k tréninku „CoAtNet“, což je grafický klasifikátor. K dosažení nejlepších výsledků predikce bylo nejprve nutné určité experimentování s parametry, nicméně nakonec se podařilo dosáhnout velmi dobré úrovně rozpoznávání.
Vědci při pokusech použili notebook, telefon iPhone 13 mini umístěný ve vzdálenosti 17 centimetrů a aplikaci Zoom. Klasifikátor CoAtNet dosáhl z nahrávek pořízených chytrým telefonem 95 % přesnosti a 93 % z nahrávek pořízených pomocí aplikace Zoom. V případě aplikace Skype dosáhl nižší, ale stále použitelné přesnosti 91,7 %.
„Akustický útok“ se ukázal jako velice účinný i při použití velmi tiché klávesnice. Jako nejlepší ochrana proti tomuto typu útoku se aktuálně jeví používání biometrického ověřování a využívání správců hesel, čímž lze relativně snadno obejít nutnost ručního zadávání citlivých informací.