Tendências em Gerência de Informação

 

Aluno: Christian Medeiros Adriano

medeiros@dca.fee.unicamp.br

 

 

1. Introdução

 

Este trabalho apresenta inicialmente tendências gerais para a gerência de informação, mais especificamente quanto novas aplicações para sistemas de informação e questões referentes à distribuição de informação na WWW (World Wide Web). A seguir são analisadas duas tendências concretas relacionadas com tecnologia da WWW. A primeira consiste em um mecanismo de navegação para bancos de dados publicados na WWW. A segunda tendência trata da questão de gerência de documentos hipertexto na WWW, utilizando para tanto tecnologia de banco de dados, agentes e distribuição de links.

 

2. Novas Aplicações para Sistemas de Informação

 

Baseado no artigo [1] relacionamos as seguintes aplicações:

 

· Sistemas de Saúde

Médicos precisam trabalhar com uma gama muito grande de informações e estas estão normalmente dispostas em múltiplos bancos de dados. Neste contexto aparecem os seguintes problemas que deverão ser tratados: integração de sistemas legados heterogêneos, controle de acesso para preservar a confidencialidade dos registros médicos e interfaces apropriadas para os profissionais da saúde manipulares as informações. Transpondo este contexto para o ambiente nacional, levantamos questões como dimensão continental do país, que dificulta a comunicação e troca de dados, sugerindo talvez duplicação de bases de dados, convivência de um sistema público de saúde e sistemas privados, ambos pouco automatizados, logo pouco sucetíveis a heterogeneidades, isto pode ser uma oportunidade para padronização, que economizaria muitos recursos.

 

· Comércio Eletrônico

Temos observados diversos projetos para tornar disponível catálogos de produtos e compra destes on-line. Os consumidores e produtores são por princípios suspeitos e além disso trabalhos sob sistemas próprios. As questões envolvidas aqui são integração de bases de sistemas heterogêneos, confiabilidade nas transações, autenticação distribuída e transferências de fundos.

 

· Sistemas de Informação Geográfica

Como exemplo de sistema de informação geográfica temos o sistema de informação do EOS (Earth Observing System), que é um conjunto de satélites lançados pela NASA em 1998. Este sistema enviarã 1/3 de petabyte de informações por ano, que deverão ser armazenadas e tornadas disponíveis a cientistas e não cientistas. O projeto do sistema de informação apresenta as seguintes questões: prover acesso on-line a bancos de dados de tamanhos gigantescos, gerência efeciente de armazenamento quaternário, suporte a milhares de consumidores de informação com pesado volume de requisições, incluindo requisições ad-hoc, prover mecanismos efetivos de para navegação e busca por dados no sistema.

 

 

 

· Bibliotecas Digitais:

Com a possibilidade atual de digitalizar diversos tipos de mídia como livros, artigos, vídeo, imagens gráficas, textos de disciplinas e a entrega destas através de redes de alta velocidade tende a deslocar os gargalos para os gerenciadores de informação. Este contexto sugere as seguintes questões: gerência e entrega de grandes volumes de dados a taxas elevadas e ainda alguns dados com restrições de tempo-real, proteção de propriedade intelectual, incluindo o pagamento de pequenas quantias de modo a inibir a cópia ilegal. A seguir temos alguns projetos em andamento:

 

Informedia Digital Video Library at Carnegie Mellon

Digital Libraries Project at Stanford University

UC Berkeley Digital Library Project

Alexandria Digital Library

The Illinois Digital Library Project

University of Michigan Digital Library Project

Hypatia Electronic Library

 

 

3. Distribuição da Informação - Novas Direções de Pesquisas

 

A distribuição da informação envolve algumas questões que discorreremos a seguir. Estas foram potencializadas pelo estabelecimento da WWW como principal infra-estrutura de distribuição. Com o expansão da WWW e do volume de dados contidos nos seus nós, são buscadas cada vez mais soluções em bancos de dados que automatizem a gerência desta quantidade crescente de informação. Boas soluções podem ser encontradas em bancos de dados distribuídos, entretanto o caráter autônomo, não confiável e multiplataforma da WWW dão origem a diversos questinomentos que veremos.

3.1 Grau de autonomia

Em um sistema de banco de dados distribuído com participantes autônomos, que o caso da WWW, poderemos ter possibilidade de algum participante não querer aceitar uma conexão, ou então, participantes com sistemas de capacidades diferentes.

 

3.2 Venda de Informação

A principal questão aqui é cobrança de pequenos valores, estando relacionados estes a acesso a determinadas informações, utilização de algum recurso remoto ou de um software por algumas horas.

3.3 Segurança e Privacidade

A característica autônoma de participação em um sistema distribuído requer o suporte a segurança de informação em dois sentidos: desenvolvimento de mecanismos de autenticação flexíveis que suporte a idéia de função desempenhada pelo usuário e desenvolvimento de mecanismos que suporte a venda de grandes quantidades de informação quando os vendedores não conhecem os consumidores.

 

3.4 Replicação e "Reconciliação"

Bases de dados distribuídas normalmente utilizam o recurso de replicação de dados, acompanhado deste há um mecanismo de reconciliação das bases duplicadas de modo a refletir qualquer alteração local em todas as bases interessadas. A reconciliação eficiente depende de conexão disponível com as bases remotas. Como sabemos a garantia de uma conexão existe na WWW, logo deve ser tomado um esforço de pesquisa em novas arquiteturas de replicação que sejam mais imunes a estas desconexões frequentes.

 

3.5 Integração de Dados e Conversão

A questão aqui é a diversidade de formatos e modelos de dados sobre os quais trabalham sistemas de informação distribuídos. As direções de pesquisa indicadas são pesquisa sobre como deveria ser o modelo de integração, quais ferramentas são necessárias para fazer uso arbitrário de fontes de informação em sistemas integrados tão facilmente como utilizar um banco de dados local e stand-alone.

 

3.6 Recuperação e Descoberta de Informação

A WWW é o exemplo de sistema de informação distribuído que leva ao extremo problemas de recuperação e descoberta de informação. Transportando o problema para a área de bancos de dados teremos as seguintes questões: trabalhar com dados sem um esquema claro, que mudam sem nenhum aviso ou tem uma estrutura muito irregular; dados com definição precisa não clara e confiabilidade também não clara.

 

3.7 Qualidade dos Dados

O problema de validar dados de origem não confiável sempre existiu, e agora na WWW com maior frequencia trabalha-se com dados de origem não confiável ou de localização desconhecida. Deste modo novos métodos que possam prover consultas por confiabilidade e origem dos dados são mais que necessárias. A idéia talvez é que conceitos de confiabilidade e origem dos dados tornem-se conceitos de primeira classe em linguagens de consulta.

 

 

 

4. Duas Abordagens de Bancos de Dados na Web

Acompanhando o objetivo de mostrar algumas tendências teremos duas abordagens distirntas: Publicação de Bancos de Dados na Web , Utilização de Tecnologia de Bancos de Dados na Web. A primeira consiste em um solução para bancos de dados já existentes que desejam fornecer acesso via WWW. A segunda é utilizar a tecnologia de banco de dados para administrar as páginas hipertexto de um site.

 

 

4.1 Publicação de Bancos de Dados na WWW

 

A publicação de bancos de dados na WWW deve levar em consideração a diferença entre um usuário padrão de banco de dados e um usuário da WWW. Mesmo que a intensão for prover acesso aos já usuários de bancos de dados, estarão estes condicionadas ao ambiente WWW, incluindo suas restrições, limitições e requisitos especiais de interação. A seguir temos algumas características que distinguem um usuário WWW de um de banco de dados:

· Não estão familiarizados com o conteúdo da aplicação

 

· Não têm experiência com as interfaces de consulta

 

· São intolerantes com interfaces inflexíveis

 

· Esperam um mecanismo de navegação eficiente

 

· Poderão ter demandas muito diversas sobre uma mesma base de dados;

 

 

Aliado a estes fatores, temos as seguintes motivações para o emprego de um sistema gerenciador de banco de dados para administrar os documentos hipertexto em um site WWW:

 

· restrição dos Sites: rede fixa de documentos;

 

· dificulta a atualização (Administrador virar um gerenciador de BD);

 

· provê apenas uma visão ;

 

· não fornece facilidades de buscas multimídia

(Ex. QBIC- Query By Image Content)

 

 

As soluções para as questões tanto de interação mais adequado com o tipo especial de usuário, como de recursos extras não disponíveis nos sites WWW, estariam nas seguintes direções:

 

· Integração da navegação por hiperlinks e realização de consultas;

 

· Facilidades de consultas sobre dados multimídia;

 

· Criação dinâmica de sumários das consultas realizadas.

 

 

A criação dinâmica de sumários é efetuada através da tecnologia de OLAP (Online Analytical Processing), que consiste em análise de dados e sistemas de apoio à decisão trabalhando sobre bancos de dados multidimensionais. Estes sistemas agrupam subconjuntos dentro do banco de dados e e apresentam agregações de dados em cada agrupamento. Abstrações hierárquicas sobre os dados são utilizadas para gerar estas agregações.

Com isso pode ser empregada certa interatividade com os sumários para prover formas mais intuivas de buscas pelas informações do banco de dados. A partir das referidas hierarquias os usuários podem aprofundar suas busca restringindo os níveis hierárquicos, enquanto isso o sistema apresenta novas agregações a cada mudança de nível. Um sistema de OLAP tem a vantagem de oferecer um recurso interessante tanto para experts como para iniciantes, tal característica encaixa-se muito bem com o perfil indefinido de ususário WWW.

Outro ponto é desenvolver um modelo de consultas apropriado a este contexto. A sugestão que transparece é que um modelo de consultas por navegação atenderia bem aos requisitos de publicação de banco de dados. Temos então os seguintes objetivos para um novo modelo de consultas:

 

· Prover recursos de navegação extensíveis e customizáveis

 

· Integrar: consultas estruturadas e declarativas;

estilo de navegação por browsing;

consultas sobre dados multimídia.

 

· Desenvolver mecanismo de melhoria de performace para as consultas

 

Enfim, a idéia geral consiste em ter a navegação como processo de re-escrita e refinamento de consultas.

Um ponto interessante é a possibilidade de customizar o sistema. Isto pode ser feito a partir do registro de novas hierarquias, que é muito facilitado por estas e os dados propriamente ditos estarem centrados em um banco de dados.

 

 

4.2 Sistemas de Informação Multimída Distribuídos

 

 

 

Novas formas de gerenciar os documentos Web:

 

- Melhorias na navegação;

 

- Customização de páginas;

 

- Facilidade de manutenção de grandes coleções de páginas;

 

 

 

Questões a serem respeitadas:

- Uso dos padrões da Web;

 

- Independência de aplicações proprietárias;

 

- Suporte à informação multimídia;

 

 

 

 

Serviço de links distribuídos

 

 

· Links como objetos

 

· Bases de links

 

· Agentes ( LRA- Link Resolution Agent)

- Suportam contextos

- Suportam interações do tipo consulta

- Criam novos links

- Verificam integridade dos links

- Identificam caminhos