Utilização de XML numa Plataforma de Data Mining Distribuído
Ruy Ramos (Faculdade de Engenharia - FEUP / LIACC)
Carlos Adriano Gonçalves (Faculdade de Engenharia - FEUP)
Rui Camacho (Faculdade de Engenharia - FEUP / LIACC)
Abstract:
O processo de Extracção de Conhecimento em Bases de Dados
Knowledge Discovery in Databases - KDD) envolve a análise
de extensas bases de dados e recurso a complexos algoritmos de
análise de dados Data Mining.
Este processo requer, geralmente, recursos computacionais dedicados
e de elevado custo o que reduz significativamente o número de
utilizadores capazes de efectuar tais análises.
Neste artigo apresentamos uma arquitectura
baseada em computadores pessoais distribuídos numa rede de
computadores de uma organização e que permite a
realizaçãoo de tarefas de KDD sem recursos computacionais
dedicados e sem perturbar o funcionamento da organização.
A arquitectura é denominada Harvard - HARVesting Architecture
of idle machines foR Data mining.
O Harvard utiliza uma linguagem de especificação e controlo de tarefas baseada em XML.
A linguagem XML no caso do Harvard é imprescindível para a interoperabilidade entre
os diferentes componentes do ambiente descrevendo claramente todos os aspectos da
tarefa de KDD a ser executada de forma distribuída.
Os resultados alcançados por diferentes nós do sistema são
transcritos em XML, de modo a facilitar a apresentação ao utilizador do
ambiente Harvard e ainda permitir integração com outros sistemas de extracção de conhecimento.
Keywords:
Aplicações de XML