Applying data analysis to provide efficient and effective recommendation systems for e-commerce

Hafez Mahmoud, Manar Mohamed

Applying data analysis to provide efficient and effective recommendation systems for e-commerce

Hafez Mahmoud, Manar Mohamed

Dirixida por:

Rebeca Díaz Redondo Director
Ana Fernández Vilas Co-director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 13 de outubro de 2021

Tribunal:

Nashwa Elbendary Presidente/a
Manuel Fernández Veiga Secretario
Florina Almenares Mendoza Vogal

Departamento:

Enxeñaría telemática

Tipo: Tese

Teseo: 671514 DIALNET Investigo editor

Resumo

La transformación digital facilita nuevas formas de creación de valor en tres etapas del proceso de decisión del consumidor: (i) el reconocimiento de la necesidad previa a la compra, la búsqueda de información, la consideración o evaluación de alternativas, (ii) la compra: elección, pedido, pago y (iii) la post-compra: consumo, uso, compromiso, solicitudes de servicio. Esta creación de valor es especialmente relevante en el comercio minorista para garantizar la competitividad y ganar una mayor cuota de mercado. La transformación digital llegó de la mano de la penetración de los dispositivos móviles y la ciencia de los datos en el comercio electrónico. Aunque la transformación digital se ha abordado desde varias perspectivas: soluciones multicanal, modelado de usuarios, Internet de las Cosas (IoT), etc., todas ellas se basan en cierta medida en la disponibilidad de información sobre operaciones, las cadenas de suministro y conducta de consumidores y compradores. Uno de los imperativos de esta transformación digital es obtener una visión de las perspectivas de los clientes. Esta información es la materia prima para el análisis de datos como un motor central hacia la transformación digital. La venta al por menor de alimentos está ahora en un proceso acelerado de penetración en el mercado digital, y los fabricantes y minoristas deben prepararse para lograr seis imperativos digitales: (1) integrar la oferta digital con sus operaciones en tiendas; (2) previsiones para aumentar la eficiencia operativa; (3) optimizar el marketing y las promociones omnicanal; (4) la fijación de datos maestros inexactos; (5) una visión única y completa de las perspectivas de los clientes; y (6) la integración de capacidades de estantería digitales y en la tienda. Es esencial centrarse en los imperativos digitales más favorables: la disponibilidad de datos de calidad (datos exactos, completos y mantenidos) para alimentar todos los procesos visibles en la transformación digital. La calidad de los datos no es tan evidente si tenemos en cuenta la variedad de productos y proveedores en el mercado de la alimentación. Como ejemplo notable, Walmart es el mayor minorista de comestibles con más de 10.000 unidades de venta en todo el mundo y alrededor de 3.000 proveedores. Además, los productos alimenticios se encuentran entre los bienes más variados que se pueden observar las diferentes variedades de alimentos suman una cantidad de 23 millones de productos alimenticios. Es decir, las empresas minoristas tienen que extraer la información de los productos y añadirla al catálogo de forma eficiente, mostrando datos correctos y precisos a los clientes para que no tengan ningún problema. Walmart Marketplace también da acceso a terceros minoristas que desean ofrecer sus productos a los más de 90 millones de visitantes únicos que compran en Walmart.com cada mes. Con esta escala de localizacións, usuarios en línea, proveedores y minoristas de terceros, mantener la calidad de la información es una cuestión que hay que abordar cada día. Además, Walmart proporciona a los proveedores datos de ventas actualizados. Con la magnitud de Walmart o no, el reto en una transición exitosa en el mercado digital de comestibles es conseguir los datos adecuados, procesarlos a gran velocidad y obtener algún valor de ellos, como categorizar los productos y añadirlos al catálogo, desde la perspectiva del minorista. Desde otra perspectiva, también es un reto proporcionar al usuario la comodidad superior de la compra de comestibles en línea. Desde los primeros pasos de Amazon, el tiempo para seleccionar el producto deseado ha sido el principal problema para los clientes, especialmente si se considera el alto volumen y ritmo de incorporación de productos. Desde hace más de dos décadas, los Sistemas de Recomendación (RS) en el comercio electrónico han tratado de proporcionar los productos o servicios más adecuados, para mitigar el problema de la sobrecarga de productos, y para reducir el conjunto de opciones. El éxito de los principales proveedores de productos y servicios se basa principalmente en los RS, como Amazon, Netflix, y Google. Los RS mejoran la satisfacción del cliente al reducir sus esfuerzos de búsqueda y aumentan las ventas de productos/servicios. Los RSs proporcionan a los usuarios artículos basados en sus intereses, las preferencias de otros usuarios y los atributos del artículo. La recomendación puede llevarse a cabo desde varios enfoques en función del tipo de datos recogidos y de la forma en que los RS los utilizan: Filtrado basado en el contenido (CB), filtrado colaborativo (CF) y enfoques híbridos. Ambos sistemas, CB y CF, son ampliamente utilizados, y especialmente el filtrado colaborativo basado en ítems (enfoque de Amazon), donde la similitud entre ítems se calcula utilizando las valoraciones de los usuarios para cada ítem. Aunque los RS son utilizados por los usuarios de forma habitual en casi todos los sectores digitalizados, su popularización en el mercado de la alimentación, es decir, una tienda minorista que vende principalmente productos alimenticios, se ha retrasado como consecuencia de la escasa penetración de la alimentación en línea y de la implantación del comercio electrónico de productos de alimentación. Recientemente, al igual que en otros sectores, la industria de la alimentación está aprovechando lo digital para innovar a través de modelos de negocio basados en datos. La venta de comestibles en línea se considera un elemento central en la nueva normalidad. En este sentido, la recomendación de comestibles utiliza el historial de compras del cliente y la información sobre el producto para abordar varios escenarios de valor añadido: predecir las compras futuras de los clientes, seleccionar los productos con mejor relación calidad-precio, ofrecer nuevos productos que puedan gustar al usuario y otros factores similares que puedan afectar a la recomendación. Además, la disponibilidad de datos sobre los productos y las compras afecta positivamente al minorista al facilitar un negocio sostenible; ofertas y productos destacados, gestión de existencias, perfil de los clientes y otros. *La tesis y su validación Para hacer frente a los desafíos que se discuten en la sección de introducción, esta tesis tiene ciertas soluciones desde dos perspectivas diferentes, minoristas y usuarios. (1) En cuanto a los minoristas, tanto las grandes como las pequeñas empresas minoristas tienen que organizar y clasificar los productos que venden. Probablemente, hay una dispersión considerable de productos ya que hay muchos fabricantes y, además, hay diferentes tamaños de tiendas. La lista de productos debe ser gestionada ya que cambia una y otra vez. Además, en la Unión Europea, la legislación relativa a los productos de venta al por menor también es compleja, por lo que es necesario gestionar la calidad. Además, las leyes nacionales y regionales hacen que este trabajo sea aún más difícil. Los problemas descritos anteriormente son un buen escenario para el análisis de datos y las técnicas de aprendizaje automático. Por lo tanto, nuestro enfoque pretende proporcionar a las empresas minoristas una solución de categorización automática para nuevos productos para reducir los recursos humanos y las tasas de error que se producen cuando la clasificación se hace manualmente. Esta clasificación se basa exclusivamente en la descripción de cada producto y taxonomía específica como, categoría, subcategoría y variedad. La metodología se puede aplicar horizontalmente a diferentes dominios, asumiendo una taxonomía o jerarquía de categorías previamente conocida. Así pues, se aplicaría, entre otras cosas, a los procesos de contratación, los sistemas de apoyo a la adopción de decisiones en materia de viajes y las inversiones. (2) En cuanto a los usuarios, al buscar sobre productos específicos que no se encuentran, nuestro objetivo es ayudar al usuario a encontrar el producto adecuado que sea similar a la elección del producto deseado; por lo tanto, esta tesis adopta un sistema de recomendación para ayudar al usuario a elegir el producto alternativo/similar en ausencia del producto original. El sistema de recomendación tiene tres aspectos: (i) no hay disponibilidad para el perfil del cliente; (ii) el catálogo utilizado es muy dinámico; y (iii) la recomendación tiene múltiples aspectos, es decir, se basa en varios criterios, como los ingredientes, el envase, el coste y la salud. Los criterios del sistema de recomendación multiaspecto se consideran en este trabajo tres aspectos, a saber, el producto, el envase y la salud. Dado un producto de origen, el sistema de recomendación sugiere productos alternativos similares, cuya similitud se define en función de una taxonomía de productos, así como de las características del producto, que incluyen, entre otras, la composición, el envase, la tabla nutricional y los alérgenos. La solución de este problema admite varios casos de uso habituales en el mercado minorista, como productos agotados, liquidación de existencias, opciones de mejor valor, nuevos productos y otros. Para validar el enfoque general, utilizamos un conjunto de datos reales de comestibles, proporcionado por Midiadia, una empresa española que trabaja en la conversión de datos de productos de venta al por menor en conocimiento, lo que se hace mediante la creación de atributos y conocimientos de las etiquetas de los productos. El motor de Midiadia, llamado MidiadiaTECH, proporciona a los minoristas un conocimiento profundo sobre sus existencias, proporcionando una nueva experiencia personalizada a sus clientes. *Las contribuciones y la estructura de la tesis La principal aportación de esta tesis es el trabajo sobre los problemas del comercio electrónico desde dos perspectivas: los minoristas y los usuarios. Este trabajo realiza las siguientes aportaciones al estado del arte actual: 1- Definir una estructura de datos adecuada para gestionar los diferentes tipos de información vinculados a los productos comerciales, especialmente en la industria alimentaria. Más en detalle: - Validar el enfoque con un conjunto de datos de una empresa del sector de la alimentación. 2-Introducir una solución para categorizar automáticamente los alimentos en una taxonomía de alimentos de acuerdo con la información proporcionada por su embalaje y etiquetado, proponiendo un modelo de clasificación que proporcione a las empresas minoristas una solución de categorización automática para nuevos productos. Más en detalle: -Automatizar el proceso de optimización de parámetros de los algoritmos de aprendizaje automático empleados. 3-Diseñar e implementar un sistema de recomendación que proporcione automáticamente productos alternativos cuando la elección del usuario no esté disponible. El sistema de recomendación no trabaja con el perfil del usuario; se basa exclusivamente en las características del producto y en el catálogo disponible. Más en detalle: -Diseño de tres enfoques de recomendación basados en las características del producto; composición, envase, tabla nutricional, alérgenos y otros. -Prueba de concepto y validación para comprobar el rendimiento de la RS. Hemos realizado una encuesta a usuarios y expertos para evaluar los enfoques de RS. *Conclusión y trabajo futuro La venta minorista de alimentos está ahora en un camino acelerado hacia el éxito de la penetración en el mercado digital mediante nuevas formas de creación de valor en todas las etapas del proceso de decisión del consumidor. Uno de los imperativos más importantes en este camino es la disponibilidad de datos de calidad para alimentar todo el proceso en la transformación digital. Sin embargo, la calidad de los datos no es tan evidente si tenemos en cuenta la variedad de productos y proveedores en el mercado de la alimentación. En este contexto de transformación digital de la industria de comestibles, Midiadia es una empresa española proveedora de datos que trabaja en la conversión de los datos de los productos de los minoristas en conocimiento con atributos e insights de la etiqueta del producto que está manteniendo datos de calidad en un mercado dinámico con una alta dispersión deproductos. Actualmente, categorizan manualmente los productos (comestibles), de acuerdo con la información extraída directamente (procesamiento de texto) del etiquetado y el embalaje del producto. En esta investigación, se proporcionaron dos modelos, que son un modelo de clasificación y un modelo de recomendación. En cuanto al modelo de clasificación, introduce una solución para clasificar automáticamente el catálogo de productos, que cambia constantemente, en una taxonomía alimentaria de 3 niveles. Nuestro modelo de clasificación se divide en dos modelos, que son el clasificador de etiqueta única (SLC) y el clasificador de etiqueta múltiple (MLC) para clasificar nuevos productos. En SLC, hemos aplicado diferentes clasificadores de aprendizaje automático sobre un conjunto de datos \textit{Midiadia}. El objetivo principal era comparar los diferentes enfoques para clasificar los productos sobre las diferentes variedades utilizadas por la empresa (taxonomía) con el fin de saber cuál es la mejor solución para ofrecer un mecanismo de clasificación automática para los nuevos productos sólo en base a sus listas de ingredientes. Hemos comparado dos tipos de algoritmos de clasificación: algoritmos ingenuos y algoritmos de conjunto. Estos últimos ofrecen mejores resultados y, en concreto, los Boosted Trees ofrecen las mejores medidas de rendimiento. En MLC, trabajamos con dos alternativas diferentes para decidir la más adecuada: (i) enfoques de aprendizaje automático (K-Nearest Neighbour (KNN), Fuzzy K-Nearest Neighbour (FKNN), eXtreme Gradient Boosting (XGBoost)), y (ii) redes neuronales profundas (Multilayer perceptron's (MLP)) tras reducir la dimensionalidad de los datos con PCA. El objetivo principal es proporcionar una herramienta de clasificación totalmente automática que ofrezca directamente un resultado: la Variedad más adecuada para un nuevo producto (opción Top_1). A pesar de considerar los beneficios de la empresa, también estudiamos otras dos alternativas (i) Top_2 que obtiene las dos Variedades más adecuadas para un nuevo producto y (ii) Top_3 que obtiene las tres Variedades más adecuadas para un nuevo producto. Ambas ayudarían también al proceso de clasificación al convertir el problema de clasificar un nuevo producto dentro de todas las categorías en un problema de clasificar un nuevo producto dentro de dos o tres categorías. Según nuestros resultados, el mejor es FKNN, seguido de cerca por KNN. En cuanto a la recomendación, cuando el usuario busca productos específicos que no se encuentran, nuestra propuesta de recomendación ayuda al usuario a encontrar el producto más parecido al deseado. Abordamos un sistema de recomendación multicriterio basado en el interés del usuario. Por ejemplo, supongamos que el usuario está interesado en un producto de una talla específica o en un producto que no contenga un alérgeno y que no esté disponible en stock. En ese caso, la RS recomienda un producto sustituto con estas especificaciones sin referirse a la ficha del usuario. Además, el sistema de recomendación puede recomendar al usuario un producto sanitario alternativo. Además, utilizamos el filtrado colaborativo basado en ítems para construir un sistema de recomendación (RS-CF) y una bolsa de palabras para representar el conjunto de datos como un vector. Se definieron tres enfoques de similitud: (i) Composición del producto (PRO-COM), en el que se puntúa la similitud, según la composición del producto (ingrediente, nombre, denominación legal, etc.); (ii) Basado en el envase (PK-BD), en el que la similitud tiene en cuenta el PRO-COM y puntúa según el tamaño del producto elegido por el usuario; y (iii) Basado en la salud (HTH-BD), en el que la similitud tiene en cuenta el PRO-COM y el PK-BD y puntúa según un grado saludable utilizando la tabla de nutrición del producto. Las evaluaciones se presentan a través de una encuesta que incluye tres enfoques, a la que responden 65 usuarios. Además, refinamos la recomendación para adaptarla a los requisitos de la empresa. La optimización del modelo del sistema de recomendación basado en redes neuronales (RS-NN) se realiza utilizando el conjunto de datos basado en redes neuronales como representante y el modelo se crea utilizando Doc2Vec. RS-NN también mejora los enfoques añadiendo algunas consideraciones (como la característica del alérgeno como condición previa para todos los enfoques). A continuación, la empresa envía los enfoques a un experto para que los evalúe. Este ha indicado que la modificación es adecuada para los requisitos de la empresa. Además, también hemos mejorado el sistema de recomendación para cumplir con los requisitos de los expertos y denominarlo "Sistema de recomendación basado en redes neuronales modificadas" (RS-MNN). También se han añadido más condiciones en la recomendación, como los atributos de la marca y el precio. Además, se reordenaron los enfoques a PRO-COM, luego HTH-BD y después PK-BD. A continuación, realizamos la encuesta a los expertos para asegurarnos de que se cumplían los requisitos. A continuación, realizamos la encuesta a los usuarios para evaluar los enfoques RS-MNN. Para la evaluación, hemos comparado los resultados proporcionados por el usuario para dos modelos (RS-CF, RS-MNN), las comparaciones demostraron que el uso de la red neuronal altera completamente los resultados, lo que ha demostrado que el resultado de precisión PRO-COM de RS-CF es mejor que PRO-COM de RS-MNN. Además, la PK-BD de la RS-MNN es mejor que la PK-BD de la RS-CF, mientras que la HTH-BD de la RS-MNN también es mejor que la HTH-BD de la RS-CF. También hemos comprobado la evaluación mediante MSE; los resultados ilustran que el RS-CF es mejor en PRO-COM, pero el RS-MNN es mejor en PK-BD y HTH-BD. Como parte de las contribuciones realizadas, se identifican también retos futuros; en cuanto al modelo de clasificación, en el etiquetado puede haber errores de transcripción y palabras que signifiquen lo mismo, lo que puede generar palabras extra y duplicadas, entre ellas, vitamina C, que también se llama "ácido ascórbico". Esto puede solucionarse aplicando técnicas de procesamiento del lenguaje natural, como la detección de sinónimos o la lematización, pero sería necesario realizar un procesamiento adicional, ya que las palabras son bastante exclusivas, teniendo en cuenta el tema del conjunto de datos. Al estar dedicado a la alimentación y las bebidas, las bibliotecas de PNL podrían no dar los resultados esperados. Por otro lado, se podrían utilizar características adicionales del producto para realizar la clasificación, ya que el uso de Nombre, Ingredientes y Denominación legal podría no ser suficiente. Como ejemplo, destaca el tomate, que aparece tanto en los snacks como en la pizza congelada. Como línea futura, la creación de un diccionario de sinónimos podría mejorar los resultados. Como ejemplo, las palabras que representan los frutos podrían agruparse y definirse como sinónimos. Por lo tanto, sería necesario procesar exhaustivamente los datos consultando terminología más técnica sobre productos alimenticios. Al usar este método, se eliminarían los duplicados, probablemente se podrían crear datos sintéticos algorítmicamente para probar el clasificador de una manera diferente. En cuanto al sistema de recomendación, se podría considerar el hecho de almacenar información sobre los usuarios; bastaría con un ID por usuario. De esta forma, el algoritmo podría considerar nuevas variables a la hora de realizar la recomendación y evaluar diferentes encuestas para un mismo usuario, dando además la posibilidad de valorar las recomendaciones. Por otra parte, en todos los enfoques, debe tenerse en cuenta que existe un precio real para el producto, cuando esto puede cambiar todas las recomendaciones. Utilizar la recomendación de varios criterios es una cuestión de investigación interesante e importante, que amplía la recomendación de tener en cuenta los precios a la recomendación de tener en cuenta los valores. Además, el modelado de la dinámica del precio es también una dirección futura prometedora. Pr último, el sistema de recomendación podría ampliarse para incluir la recomendación de productos complementarios, un producto que añade valor a otro. En otras palabras, se trata de dos productos básicos que el consumidor utiliza conjuntamente, como por ejemplo, té y azúcar, cereales y leche.