Saturday, 27 October 2007

Fez-se Magia

Hoje vivi um momento mágico na aula de SIAD. Um momento em que a realidade superou todas as teorias sobre modelação multidimensional.

Fizémos algumas experiências com uma ferramenta de Data Mining, o SPSS Clementine. Para quem está um pouco fora destes assuntos, Data Mining significa a extracção de conhecimento implícito numa lista de dados em bruto. Trata-se de uma técnica com potencialidades enormes.

Aqui fica um exemplo prático. Num conjunto de dados sobre vendas por produto, uma cadeia de hipermercados aplicou algoritmos de Data Mining para tentar perceber como se relacionavam as vendas dos diversos produtos. Foi feita uma descoberta espantosa: as vendas de fraldas para bebé estavam fortemente relacionadas com as vendas de cerveja. Como é isto possível? Hoje já pouca coisa me espanta, mas não estou a ver um bebé com uma lata de cerveja na mão! Bem, costuma-se dizer que é de pequenino que se torce o pepino, mas julgo que tal coisa seria um exagero. ;)

Depois, analizaram-se as características dos clientes que compravam regularmente os dois produtos: homens, jovens, casados e com filhos pequenos! Estava explicada a relação: os jovens pais iam comprar fraldas para os filhos e aproveitavam a ocasião para comprar umas "fresquinhas"! A cadeia de hipermercados colocou os dois produtos lado a lado e as vendas de cerveja dispararam.

Este é só um pequeno exemplo do poder do Data Mining.

Mas o momento mágico a que me refiro tem a ver com as experiências que realizámos com o Clementine. Começámos por cruzar duas variáveis (Montante gasto em publicidade e acréscimo no volume de vendas), e visualizámos a relação entre elas graficamente. Empiricamente, percebeu-se imediatamente que existia uma relação linear. Mas a ferramenta de Data Mining fez mais do que isso. Deduziu uma função (modelo) matemática que repesentava, aproximadamente, esta relação, do tipo "Incremento das vendas = a * Publicidade + b (com a e b constantes)". Fez-se magia! Extraiu-se conhecimento de um conjunto de dados em bruto.

Não menos importante foi quando cruzámos três variáveis relacionadas com um ambiente industrial (se a memória não me falha, era a temperatura das máquinas, o número de avarias das máquinas e a energia consumida pelas máquinas). Como sabem os matemáticos, qualquer conjunto de coordenadas pode ser representado através de um ponto no espaço. Neste caso, as nossas coordenadas eram cada conjunto de dados referente aquelas variáveis. Para visualizar graficamente esta relação, a ferramenta produziu um... cubo! Dentro do cubo estava explícita a relação linear existente entre as variáveis.

O que foi verdadeiramente fantástico foi a possibilidade que a ferramenta nos deu de rodar o cubo em torno de dois eixos. Conseguimos visualizar o cubo sob todas as perspectivas imagináveis. Confesso que durante alguns minutos nem consegui prestar atenção ao que a professora dizia. Fiquei ali, fascinado, a rodar o cubo!


1 comment:

Rui Almeida Santos said...

Excelente fotografia escrita do desenrolar de uma aula de SIAD. Definitivamente para mais tarde recordar.
Quanto ao SPSS Clementine, o sentimento é o mesmo que o teu, uma extraorinária ferramenta de Datamining, sem dúvida.

Abraço
RS