Comportamiento de algoritmos de sobre-muestreo en Big Data
Impact
Scholar |
Other documents of the author: Guzmán-Ponce, Angélica; Ferri Ramírez, Cèsar; Sánchez Garreta, Josep Salvador; Marcial-Romero, J. Raymundo
Metadata
Show full item recordcomunitat-uji-handle:10234/9
comunitat-uji-handle2:10234/7038
comunitat-uji-handle3:10234/8634
comunitat-uji-handle4:
INVESTIGACIONMetadata
Title
Comportamiento de algoritmos de sobre-muestreo en Big DataAuthor (s)
Date
2022-10-10Publisher
Universidad Autónoma del Estado de MéxicoISSN
2992-7447Bibliographic citation
GUZMÁN PONCE, Angélica et al. Comportamiento de algoritmos de sobre-muestreo en Big Data. Ideas en Ciencias de la Ingeniería, [S.l.], v. 1, n. 2, p. 53-69, oct. 2022. ISSN 2992-7447. Disponible en: <https://ideasencienciasingenieria.uaemex.mx/article/view/19810>.Type
info:eu-repo/semantics/articlePublisher version
https://ideasencienciasingenieria.uaemex.mx/article/view/19810Version
info:eu-repo/semantics/publishedVersionSubject
Abstract
El desbalance de clases es una de las complejidades de los datos ampliamente estudiada en el campo de la ciencia de datos. A menudo dificulta el proceso de extracción de conocimiento, sesgando el aprendizaje hacia ... [+]
El desbalance de clases es una de las complejidades de los datos ampliamente estudiada en el campo de la ciencia de datos. A menudo dificulta el proceso de extracción de conocimiento, sesgando el aprendizaje hacia instancias de clase mayoritaria. La creciente generación de datos que estamos viviendo agrava el escenario anterior. Los desafíos en Big Data implica la necesidad de adaptar o crear nuevas técnicas para las restricciones de escalabilidad, dando lugar al desarrollo de técnicas que solventen el desbalance de clases en grandes volúmenes de datos, siendo la mayoría de estas basadas en el algoritmo SMOTE, en razón de tener un mejor desempeño en conjuntos “pequeños”. En este trabajo realizamos un análisis del comportamiento de los métodos de sobre-muestreo en Big Data, a través de medidas de complejidad que permiten conocer las características de los conjuntos de datos procesados. Los resultados obtenidos corroboran que el problema de desbalance de clases en Big Data no es el único problema que debe abordarse; por otro lado, el comportamiento de SMOTE en Big Data no es comparable al logrado en conjuntos de datos pequeños, debido a la presencia de redundancia por parte del proceso de interpolación. [-]
Is part of
Ideas en Ciencias de la Ingeniería, [S.l.], v. 1, n. 2, oct. 2022. ISSN 2992-7447.Funder Name
Unión Europea-NextGenerationEU
Project code
MGS/2021/23(UP2021-021
Rights
info:eu-repo/semantics/openAccess
This item appears in the folowing collection(s)
- LSI_Articles [362]