Image dataset to train a deep learning model to decode Leetspeak obfuscated characters

De Mendizabal, Iñaki Velez; Vidriales, Xabier; Fernandes, Vitor Basto; Ezpeleta, Enaitz; Méndez, José Ramón; Zurutuza, Urko

doi:10.5281/ZENODO.6373558

Image dataset to train a deep learning model to decode Leetspeak obfuscated characters

De Mendizabal, Iñaki Velez ¹
Vidriales, Xabier ¹
Fernandes, Vitor Basto ²
Ezpeleta, Enaitz ¹
Méndez, José Ramón ³
Zurutuza, Urko ¹

1 Universidad de Mondragón/Mondragon Unibertsitatea

Universidad de Mondragón/Mondragon Unibertsitatea

Mondragón, España

ROR https://ror.org/00wvqgd19
2 Instituto Universitário de Lisboa (ISCTE-IUL)
3 Universidade de Vigo

Universidade de Vigo

Vigo, España

ROR https://ror.org/05rdf8595

Show affiliations +

Editor: Zenodo

Year of publication: 2022

Type: Dataset

DOI: 10.5281/ZENODO.6373558 Open access editor

Abstract

The dataset contains an image database (18,981 images) that could be used to train a deep learning model to accurately detect characters. We have successfully used it to create a model that identifies characters encoded using LeetSpeak. The original dataset can be found in the Mondragon Unibertsitatea Repository -- https://gitlab.danz.eus/datasharing/ski4spam The training dataset consists of: - Alphabetic letters (a-z) written using different fonts and styles (regular, cursive, bold, cursive+bold) - Handwritten letters: English handwriting from the Chars74k dataset [2] which is available at http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/.

Image dataset to train a deep learning model to decode Leetspeak obfuscated characters

Universidad de Mondragón/Mondragon Unibertsitatea

Universidade de Vigo

Abstract