Detección automática de tweets no relevantes en streams guiados por consulta
Metadatos
Mostrar el registro completo del ítemcomunitat-uji-handle:10234/158176
comunitat-uji-handle2:10234/71345
comunitat-uji-handle3:10234/94547
comunitat-uji-handle4:
TFG-TFMMetadatos
Título
Detección automática de tweets no relevantes en streams guiados por consultaAutoría
Tutor/Supervisor; Universidad.Departamento
Berlanga Llavori, Rafael; Universitat Jaume I. Departament de Llenguatges i Sistemes InformàticsFecha de publicación
2018-10Editor
Universitat Jaume IResumen
Early in the 90s when social networks emerged, the number of users and the amount of
information shared and published in them has undergone an exponential growth. In this
work we will focus on the social network ... [+]
Early in the 90s when social networks emerged, the number of users and the amount of
information shared and published in them has undergone an exponential growth. In this
work we will focus on the social network Twitter, which had at the beginning of 2018
with 330 million users.
The goal of this work is to predict which of all the tweets obtained through a domain
query are relevant or irrelevant for a subsequent analysis phase. For this, first, a
bibliographic search has been made to find out the state of the art on similar topics.
Secondly, a semi-manual method has been developed to perform the tagging of the
dataset where the tweets have been identified according to the type they belong to,
namely: relevant or irrelevant. Then a statistical analysis of the data has been carried out
to find an adequate automatic classification method according to the selected evaluation
metrics. All the experiments have been carried out with the help of data mining and text
processing libraries available for Python. [-]
Desde principio de los años 90 cuando surgieron las redes sociales, el número de
usuarios y la cantidad de información compartida y publicada en ellas ha experimentado
un crecimiento exponencial.
En este trabajo ... [+]
Desde principio de los años 90 cuando surgieron las redes sociales, el número de
usuarios y la cantidad de información compartida y publicada en ellas ha experimentado
un crecimiento exponencial.
En este trabajo nos centraremos en la red social Twitter, que contaba a principios de
2018 con 330 millones de usuarios. El objetivo de este trabajo es conseguir predecir
cuáles de todos los tweets recogidos a través de una consulta de dominio son relevantes
o irrelevantes para una fase de análisis posterior. Para ello, en primer lugar, se ha
realizado un barrido bibliográfico para consultar el estado del arte en temas similares.
En segundo lugar, se ha elaborado un método semi-manual para realizar el etiquetado
del dataset donde se han identificado los tweets en función de la clase a la que
pertenecen, relevantes o irrelevantes. Después se ha realizado un análisis estadístico de
los datos para buscar un método de clasificación adecuado según las métricas de
evaluación seleccionadas. Todos los experimentos han sido realizados con la ayuda de
las librerías de minería de datos y tratamiento de texto disponibles para Python. [-]
Palabras clave / Materias
Descripción
Treball final de Màster Universitari en Sistemes Intel.ligents (Pla de 2013). Codi: SIE043. Curs acadèmic 2017-2018
Tipo de documento
info:eu-repo/semantics/masterThesisDerechos de acceso
info:eu-repo/semantics/openAccess
Aparece en las colecciones
El ítem tiene asociados los siguientes ficheros de licencia: