Há milhões e milhões de páginas espalhadas pela Internet. Se, às vezes, encontrar uma informação em nosso próprio computador não é tão fácil, imagine pesquisa toda a Web. Para isso, servem as ferramentas de busca. Porém elas ainda enfrentam muitos problemas. O principal não é que acham pouca informação, é que acham informação em excesso e nem sempre relacionada com o que você precisa. As ferramentas de busca se dividem basicamente em três grupos: os diretórios, as máquinas de busca e as meta máquinas de busca. Estes grupos serão descritos a seguir.
Os diretórios de busca são classificações temáticas do conteúdo da Internet, análogas aos índices de matérias de um livro ou às páginas amarelas telefônicas. Muito fáceis de utilizar, constituem a ferramenta de busca mais indicada para os novos internautas começarem a se familiarizar com o conteúdo disponível sobre os temas que os interessam. Podem ser, porém, pouco úteis para encontrar respostas em relação a temas muito específicos. Os sites que são incluídos são escolhidos e classificados de acordo com as regras de um certo serviço de busca. Um exemplo de diretório, o Cadê, é exibido na figura abaixo.
A técnica de consulta é extremamente simples. Uma vez definido o assunto a ser pesquisado, deve-se procurar nos diretórios uma categoria que abranja esse assunto. Freqüentemente é necessário continuar selecionando sub-categorias com designações cada vez mais específicas, até que se alcançar o tema procurado. Ao selecionar o tema, é exibida uma página com URLs selecionadas sobre o assunto. Trata-se, portanto, de uma viagem no sentido do geral para o particular. Assim, para pesquisar jornais regionais de Minas Gerais a partir da página inicial do Cadê, deve-se selecionar sucessivamente as categorias: Notícias, Jornais, Jornais Regionais, Minas Gerais. As páginas existentes nas categorias dos diretórios são classificadas de forma manual. Desta forma, abrangem uma porção muito pequena da Web. A vantagem é que os diretórios podem oferecer melhores resultados para as pesquisas pois foram categorizadas por pessoas que geralmente entendem do assunto. Alguns diretórios podem acrescentar dados de máquinas de busca comuns se eles não conseguirem encontrar resultados para sua busca. Os diretórios são um bom ponto de partida para pesquisas de caráter geral, como por exemplo a busca por jornais regionais mineiros. São pouco úteis para formular pesquisas sobre temas muito específicos, que freqüentemente não são abrangidos, como por exemplo um artigo escrito por um determinado autor em um dado jornal. No entanto, quando estão associados a máquinas de busca, podem responder até mesmo a tais pesquisas. Exemplos de diretórios de busca são o Yahoo (www.yahoo.com.br) e o Cadê (www.cade.com.br).
Máquinas de busca podem ser consideradas índices de palavras existentes nas páginas publicadas na Internet. São mais utilizadas do que os diretórios para obter respostas a perguntas muito específicas, mas requerem, para que sejam melhor aproveitados, conhecimentos não intuitivos das respectivas técnicas de pesquisa. São instrumentos que permitem encontrar páginas na Internet que contenham os termos, palavras chaves, escolhidos pelo usuário. Na figura abaixo é mostrada a página inicial da máquina de busca TodoBR. Na caixa de texto indicada pela seta na figura, o usuário deve digitar a palavra chave a ser pesquisada.
As máquinas de busca possuem uma extensa base de dados sobre páginas da Internet. Esta base de dados é indexada periodicamente. Verifica-se uma grande variação entre as máquinas em relação aos métodos de indexação e ao número de páginas que indexam, total ou parcialmente. Quando o usuário formula uma pesquisa, esta base de dados é consultada e um outro componente automático cria uma página de respostas que contém a lista dos links a todas as páginas que a máquina conhece que contêm os termos constantes da palavra-chave. Essa página de respostas é então enviada ao navegador (browser) do usuário que formula a pergunta. O usuário pode clicar em tais links para abrir as páginas que satisfazem os critérios de pesquisa. Na figura abaixo temos um exemplo de página de resultado no TodoBR quando a palavra chave é Belo Horizonte.
As máquinas de busca são úteis para responder a questões muito específicas. São pouco indicados para perguntas de caráter geral, em que podem conduzir a um número muito grande de links no resultado. O conteúdo das páginas da Internet que não envolve palavras (como imagens, sons, vídeos, etc.) é muito dificilmente indexável, embora haja algumas máquinas especializados em cada um destes mídia. O AltaVista por exemplo tem uma seção especial para busca de imagens. O maior problema das máquinas de busca é que, apesar de toda a sua sofisticação tecnológica, eles são incapazes de perceber o significado das palavras que pesquisam. Desta forma, as suas respostas podem ser muito pouco pertinentes. Por outro lado, são extremamente rápidas na pesquisa de palavras e expressões, qualquer que seja o sentido que tenham, por mais obscuro que seja, até mesmo para nós próprios. Por envolverem processos automáticos de tratamento da informação, muito mais rápidos do que um tratamento manual, apresentam freqüentemente respostas com dados mais recentes do que os apontados pelos diretórios. Entretanto, a distinção entre diretórios e máquinas de busca não é tão clara quanto parece. Os maiores diretórios de busca utilizam resultados obtidos através de máquinas de busca se eles não encontram o que você está procurando. Por exemplo, o Yahoo utiliza a máquina de busca Google com este propósito. Exemplos de máquinas de busca são AltaVista (www.altavista.com), o TodoBr (www.todobr.com.br) e Google (www.google.com).
As meta máquinas de busca (metasearch engines) são instrumentos que enviam simultaneamente a pesquisa formulada pelo usuário a mais de uma máquina de busca, tentando extrair as informações mais relevantes de cada uma. Daí o prefixo meta, que é muito utilizado em informática. O resultado dessa metapesquisa, uma lista de páginas que satisfazem critérios de pesquisa em cada máquina, é apresentada em uma mesma página de respostas. Um exemplo de meta máquina de busca, o MetaMiner (miner.bol.com.br/metaminer.html), é exibido abaixo:
Embora possam parecer muito interessantes para obter respostas ainda mais completas, a verdade é que, como as máquinas de busca têm sintaxes de pesquisa específicas e diferentes (ver quadro no fim do texto), as meta máquinas de busca tendem a escolher o máximo denominador comum em termos de sintaxe, o que lhes faz perder muita informação e especificidade. Um exemplo de resultado de pesquisa no MetaMiner para a chave Belo Horizonte é apresentado na figura abaixo.
Palavras chaves são o conjunto de termos que você utiliza em uma busca. A definição da palavra chave é muito importante, pois determina diretamente os resultados da pesquisa. Uma palavra chave mal formulada pode resultar em uma resposta com um grande número de páginas que não estejam relacionadas ao que você realmente deseja. Um boa palavra chave deve ser o mais especifica possível. Se você deseja pesquisar por um determinado peixe, sua palavra chave deve ser o nome deste peixe e não a palavra peixe. Por exemplo, utilize traíra e não simplesmente peixe. Se pesquisar por peixe você obterá inúmeros resultados e perderá muito tempo procurando aquelas páginas que falam a respeito de traíras. A utilização de mais de uma palavra em uma chave pode ser bastante útil para refinar uma pesquisa. A forma como as palavras se relacionam pode ser importante para a obtenção de um resultado melhor, como você pode ver na seção de pesquisa avançada.
Ao realizar uma pesquisa na Internet você pode obter um número extremamente grande de páginas como resultado. Neste caso, você muito provavelmente não verificará todas elas por falta de tempo e até mesmo de paciência, até porque, muitas destas páginas podem não ser relacionadas com o seu real interesse. Para restringir os resultados de sua pesquisa de forma a obter apenas páginas realmente interessantes você pode utilizar a seção de pesquisa ou busca avançada das máquinas de busca. Você aprenderá aqui a utilizar os principais elementos existentes na busca avançada.
Suponha que você goste de pizza com mussarela, presunto, sem azeitonas e nem cebola e que você deseja pesquisar por este sabor de pizza na Internet. Para representar este sabor utilizando operadores Booleanos você pode organizar a seguinte sentença: pizza E mussarela E presunto E NÃO azeitonas E NÃO cebola Uma máquina de busca interpretaria esta expressão Booleana da seguinte maneira: O usuário deseja que eu apresente links para todas as páginas que possuam as palavras pizza e presunto e que não possuam as palavras azeitonas e nem cebola. O operador E significa que a palavra que o segue tem que estar no texto das páginas que serão listadas. Páginas que possuem as palavras seguintes a E NÃO não serão listadas. Ainda no caso do sabor da pizza, caso você goste também de lombinho canadense e não se importe caso o presunto seja substituído por este ingrediente você pode usar o operador OU. Neste caso a expressão seria: pizza E mussarela E (presunto OU lombinho) E NÃO azeitonas E NÃO cebola Na Web, uma expressão como esta em uma pesquisa retornaria todas as páginas que contivessem as palavras presunto mais todas as páginas que contivessem as palavras lombinho mais todas as páginas que contivessem ambas as palavras, desde que estas páginas satisfizessem as outras cláusulas da expressão, ou seja, contivessem a palavra pizza e a palavra mussarela e não contivessem a palavra azeitonas e nem a palavra cebola. O símbolo de parênteses é utilizado para evitar confusões. Desta forma, fica claro para a máquina de buscas que presunto OU lombinho pode ser substituído por lombinho. O que aconteceria se você não utilizasse os operadores Booleanos E, OU e NÃO e utilizasse a seguinte expressão para pesquisa? pizza mussarela presunto lombinho azeitonas cebola A maioria das máquinas de busca interpreta o espaço entre as palavras como E. Isto é, elas retornarão para você as páginas que contém todas estas palavras. Mas não é isto que você está procurando. Você deseja páginas que não falem de azeitonas ou cebolas e você aceita uma página que não contenha a palavra lombinho, desde que contenha a palavra presunto. Outras máquinas de busca, como Excite (www.excite.com) e Go/Infoseek (www.go.com), interpretam o espaço entre as palavras como OU. Isto significa que estas retornarão todas as páginas que contêm pelo menos uma destas palavras. Desta forma, você receberá como resultado uma grande quantidade de páginas irrelevantes a respeito de cebola e de azeitonas. Em algumas máquinas de busca você tem que utilizar explicitamente busca booleana para poder utilizar os operadores Booleanos, em outras, você deve escolher busca avançada. Em algumas máquinas, como o TodoBr, você não pode utilizar diretamente os operadores na busca avançada, você deve utilizar apenas as opções “Todas as palavras” que equivale ao operador E ou a opção “Algumas das palavras” que equivale ao OU. Vale ressaltar que em algumas máquinas de busca cujo idioma de origem é o Inglês, os operadores Booleanos devem ser escritos neste idioma. Assim, AND corresponde ao E, OR corresponde ao OU e NOT corresponde ao NÃO. Embora os operadores Booleanos usados nas várias máquinas de busca sejam bastante similares, as variações são grandes. Você pode (e deve) consultar as páginas de ajuda dos serviços de busca para verificar a utilização dos operadores Booleanos na máquina de busca escolhida.
As pesquisas podem ser representadas graficamente através de diagramas de Venn. Esses diagramas são uma forma de representar conjuntos. Abaixo, temos um exemplo:
O conjunto representado pelas estrelas e luas azuis é a interseção dos conjuntos Estrela e Lua. Sabemos que a interseção entre dois conjuntos é formada pelos elementos que pertencem a ambos os conjuntos, ou seja, é análoga ao operador Booleano E apresentado anteriormente. Podemos verificar que a união de dois conjuntos é análoga ao operador Booleano OU como representado no diagrama abaixo:
A união dos conjuntos Estrela e Lua é representada pelos elementos em azul. Finalmente, verificamos que o complemento de um conjunto é análogo ao operador NÃO como pode ser representado da forma abaixo:
Neste diagrama, representamos o complemento do conjunto Estrela em azul.
Máquinas de busca são úteis, mas extremamente estúpidas. Se você pesquisa por universidade federal de minas gerais, podem ser retornadas informações relativas a diversas universidades, páginas relativas ao estado de Minas Gerais e a diferentes órgãos federais. Para retornar apenas páginas referentes à UFMG você deve informar que Universidade Federal de Minas Gerais é uma expressão ou frase exata. Para isto, utilize aspas duplas. Um exemplo de pesquisa por frase exata é: “Universidade Federal de Minas Gerais” Isto indicará à máquina de busca que devem ser retornadas somente páginas que contenham todo o texto entre aspas.
Caso você tenha achado os operadores Booleanos muito complicados, você pode utilizar uma sintaxe simplificada, pseudo-Boolena, baseada nos símbolos matemáticos + e -. Desta forma, teríamos: + pizza + mussarela + presunto - azeitonas – cebola Você deve colocar o sinal de mais (+) antes das palavras que devem necessariamente aparecer nas páginas retornadas. O sinal de menos (-) antes de uma palavra indica que páginas que contiverem esta palavra devem ser retiradas da resposta. Desta forma, o + é equivalente ao E e o – é equivalente ao E NÃO. Na maioria das máquinas de busca você pode utilizar os sinais de menos e mais com as aspas como explicado acima. No entanto, você não pode utilizar os parênteses e nem os operador OU. Um exemplo é: + “pizza portuguesa” - azeitonas presunto Isto significa que páginas que contenham o texto pizza portuguesa e não contenham a palavra azeitonas devem ser retornadas. Indica ainda que estas páginas devem preferencialmente incluir a palavra presunto. Se não existe sinal antes da palavra, a maioria das máquinas de busca interpretará como se houvesse um sinal de mais (+).
Algumas máquinas de busca levam parcialmente em consideração o uso de letras maiúsculas e minúsculas. Se você utiliza letras minúsculas em sua consulta, serão retornados resultados que contenham as palavras chaves independentemente das letras maiúsculas. Por exemplo, se você procurar por amazonas, serão retornadas páginas contendo amazonas, Amazonas, e mesmo AMAZONAS. Normalmente o inverso não é verdadeiro, ou seja, se você procurar por Margarida, serão retornadas páginas contendo Margarida, mas não serão retornadas páginas relacionadas que contenham a palavra margarida, com todas as letras minúsculas, no texto da página. Desta forma pode ser interessante quando você procura por pessoas utilizar letras maiúsculas para as iniciais.
As máquinas de busca não cobrem toda a web. Por isso, você deve usar mais de uma delas. Você deve encontrar qual delas é mais adequada às suas necessidades.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||