Dimensionality reduction for the improvement of anti-spam filters

Velez de Mendizabal, Iñaki

dc.contributor.advisor	Zurutuza, Urko
dc.contributor.advisor	Ezpeleta, Enaitz
dc.contributor.advisor	Basto-Fernandes, Vitor
dc.contributor.author	Velez de Mendizabal, Iñaki
dc.date.accessioned	2023-02-10T10:36:19Z
dc.date.available	2023-02-10T10:36:19Z
dc.date.issued	2022
dc.date.submitted	2022-07-18
dc.identifier.other	https://katalogoa.mondragon.edu/janium-bin/janium_login_opac.pl?find&ficha_no=171552	en
dc.identifier.uri	https://hdl.handle.net/20.500.11984/5984
dc.description.abstract	Nowadays, spam represents more than 45% of the world’s email traffic. Filtering techniques to combat the problem of spam distribution have been the subject of many research studies in recent years. Several combinations of legal, administrative and technical perspectives were tested. The combination of technical approaches, namely, the widely exploited content-based and token-based filtering techniques, revealed low significance improvements on spam classification performance. Due to the limited performance of token-based strategies, new knowledge representation schemes (such as those based on word-embeddings, topics, or synsets) have been developed. The use of synsets to represent the meaning of the words guides the community towards the identification of the intentionality of a message, allowing the classification of messages that want to sell products, obtain information about us, etc. The advantage of this kind of synsets representations lies on the capability to taxonomically group concepts, handling the polysemy and synonymy. These properties have been successfully exploited in this research work to design a novel Machine Learning (ML) based lossless feature reduction schemes by grouping concepts strategies. This type of reduction schemes has achieved a reduction in the classification problem dimensionality (number of features), improving the classification performance. In a second step we introduce and demonstrate the effectiveness of a new feature reduction scheme that combines the strengths of lossless and lossy strategies. Finally, in order to use the Leetspeak encrypted words, a decoder has been designed and tested. The proposed system reduces the number of unprocessed words considerably, improving the classification rates of spam messages.	en
dc.description.abstract	Gaur egun spam mezuek mundu osoko email trafiko globalaren %45-a suposatzen dute. Azken urteetan spam-aren arazoa konpontzeko tekniketan ikerketa ugari egin dira. Soluzio desberdinak probatu dira alderdi legalak, administratiboak eta teknikoak nahastuz. Ikuspuntu tekniko batetik edukietan eta token-etan oinarrituriko teknikek hobekuntza eskasak lortu dituzte. Azken hauek lortutako emaitzak hobetzeko, mezuen barruko informazioa errepresentatzeko era berriak garatu dira (adierazpen bektoriala, gaiak edo synset-ak). Hitzen esanahiak erabiltzeak mezua zein asmorekin idatzia izan den asmatzera bideratzen gaitu, produktuak saldu nahi dituen mezu bat bezala klasifikatuz, informazioa lortu nahi duen mezu bat bezala, etabar. Informazioa errepresentatzeko metodo berri hauek kontzeptuak elkartzeko gaitasuna daukate, esanahi desberdineko hitzak eta esanahi bereko hitzak taxonomikoki azteretuz. Propietate hauetan oinarrituz, ikerketa lan honetan, informazio galera gabeko ezaugarri kopuru murrizketa lortzen duen sistema bat garatu da, zein Ikaste Automatikoan oinarritzen den kontzeptuak elkartzeko. Honi esker arazoaren dimentsioa (tamaina) gutxitu da mezuen sailkapenaren errendimendua hobetuz. Bestalde, garaturiko lan honen abantailetan oinarritzen den bigarren sistema bat ere garatu da, non informazio galera gabeko sistemaren sendotasuna, informazio galera txiki batekin konbinatzen den. Amaitzeko Leetspeak-ean kodifikaturiko hitzen informazioa berreskuratzeko dekodifikatzaile bat garatu da. Garaturiko dekodifikatzaileak berreskuratzen dituen hitzen informazioari esker, klasifikazioaren emaitzak hobetu egiten dira.	eu
dc.description.abstract	Actualmente el spam representa cerca del 45% del trafico mundial de emails. En los últimos años las técnicas de filtrado para combatir el spam han sido objeto de innumerables estudios. Se han probado distintas soluciones combinando aspectos legales, administrativos y técnicos. Desde el punto de vista técnico, la combinación de técnicas de filtrado basadas en tokens y técnicas de filtrado basadas en contenidos han traído mejoras poco significativas en las tasas de clasificación del spam. Debido a las limitadas mejoras conseguidas con estas estrategias, se han desarrollado nuevos esquemas de representación del conocimiento (como las representaciones vectoriales, temas o synsets). El usar synsets para representar el significado de las palabras nos guía hacia la identificación de la intencionalidad de un mensaje, permitiendo clasificarlos como mensajes que quieren vender productos, obtener información sobre nosotros, etc. La ventaja de este tipo de representaciones está en su capacidad de agrupar taxonómicamente los conceptos, resolviendo la polisemia y la sinonímia. Estas propiedades han sido utilizadas con éxito en este trabajo de investigación, para diseñar un nuevo esquema de reducción de características sin pérdida de información mediante agrupaciones de conceptos basado en técnicas de Aprendizaje Automático. Gracias a este esquema de reducción, se ha conseguido reducir la dimensionalidad del problema de clasificación (número de características), mejorando el rendimiento. En un segundo paso, presentamos y demostramos la eficacia de un nuevo esquema de reducción de características que combina los puntos fuertes de la estrategia sin pérdida de información combinándola con una leve pérdida de información. Por último, para recuperar la información de las palabras cifradas mediante Leetspeak, se ha diseñado y probado un decodificador. El sistema presentado reduce considerablemente el número de palabras cifradas (ofuscadas) que se quedan sin procesar, mejorando los índices de clasificación de los mensajes de spam.	es
dc.format.extent	105 p.	en
dc.language.iso	eng	en
dc.publisher	Mondragon Unibertsitatea. Goi Eskola Politeknikoa	en
dc.rights	© 2022 Iñaki Velez de Mendizabal Gonzalez	en
dc.subject	spam	en
dc.subject	Synset-based representation	en
dc.subject	Semantic annotations	en
dc.subject	Multi-objective evolutionary algorithms	en
dc.subject	Leetspeak	en
dc.subject	deobfuscation	en
dc.subject	ODS 9 Industria, innovación e infraestructura	es
dc.title	Dimensionality reduction for the improvement of anti-spam filters	en
dcterms.accessRights	http://purl.org/coar/access_right/c_abf2	en
local.contributor.group	Análisis de datos y ciberseguridad	es
local.description.responsability	Epaimahaiburua / Presidente: Octavian Adrian Postolache (ISCTE); Epaimahaikidea / Vocal: Iryna Yevseyeva (University of De Montfort); Epaimahaikidea / Vocal: Jose Mª Gómez Hidalgo (TIBCO Software); Epaimahaikidea / Vocal: Ekhi Zugasti Uriguen (Mondragon Unibertsitatea); Idazkaria/ Secretario: Iñaki Garitano Garitano (Mondragon Unibertsitatea)	es
local.identifier.doi	https://doi.org/10.48764/4mec-k145
oaire.format.mimetype	application/pdf
oaire.file	$DSPACE\assetstore
oaire.resourceType	http://purl.org/coar/resource_type/c_db06	en

Files in this item

Name:: tesia_ivelez_finala.pdf
Size:: 10.32Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Theses - Engineering [251]

Simple record