Utilização de XML numa Plataforma de Data Mining Distribuído
Ruy Ramos (Faculdade de Engenharia - FEUP / LIACC)
Carlos Adriano Gonçalves (Faculdade de Engenharia - FEUP)
Rui Camacho (Faculdade de Engenharia - FEUP / LIACC)

Abstract:
O processo de Extracção de Conhecimento em Bases de Dados Knowledge Discovery in Databases - KDD) envolve a análise de extensas bases de dados e recurso a complexos algoritmos de análise de dados Data Mining. Este processo requer, geralmente, recursos computacionais dedicados e de elevado custo o que reduz significativamente o número de utilizadores capazes de efectuar tais análises.
Neste artigo apresentamos uma arquitectura baseada em computadores pessoais distribuídos numa rede de computadores de uma organização e que permite a realizaçãoo de tarefas de KDD sem recursos computacionais dedicados e sem perturbar o funcionamento da organização.
A arquitectura é denominada Harvard - HARVesting Architecture of idle machines foR Data mining. O Harvard utiliza uma linguagem de especificação e controlo de tarefas baseada em XML. A linguagem XML no caso do Harvard é imprescindível para a interoperabilidade entre os diferentes componentes do ambiente descrevendo claramente todos os aspectos da tarefa de KDD a ser executada de forma distribuída.
Os resultados alcançados por diferentes nós do sistema são transcritos em XML, de modo a facilitar a apresentação ao utilizador do ambiente Harvard e ainda permitir integração com outros sistemas de extracção de conhecimento.

Keywords:
Aplicações de XML