Os usuários do aplicativo gratuito,
distribuído via iTunes, podem levar o telefone ao ouvido e fazer
literalmente qualquer pergunta, como "onde fica o Starbucks mais
próximo?" ou "qual é a altura do Everest?". O som será convertido em
arquivo digital e enviado aos servidores do Google, que tentarão
determinar as palavras que foram faladas e as transmitirão ao
serviço de buscas da empresa.
Os resultados de busca, que podem ser
transmitidos em segundos por uma rede sem fio de alta velocidade, em
certos casos incluirão informações locais, o que aproveitará os
recursos do iPhone que permitem localização.
A capacidade de reconhecer
praticamente qualquer frase, pronunciada por qualquer pessoa, vem há
muito sendo o objetivo supremo dos pesquisadores da
inteligência artificial, que querem promover uma interação mais
natural entre homens e máquinas. Sistemas capazes de fazê-lo
começaram recentemente a chegar a produtos comerciais.
Yahoo e Microsoft também oferecem
serviços de voz para celulares. O Tellme, da Microsoft, oferece
informações em categorias específicas, como endereços, mapas e
filmes. O oneSearch with Voice, do Yahoo, é mais flexível mas parece
menos preciso que o produto do Google.
O sistema do Google está longe de ser
perfeito, e pode apresentar resultados em forma de algaravia. Os
executivos do Google se recusaram a estimar que proporção dos
pedidos é atendida corretamente, mas dizem acreditar que ele seja
preciso o suficiente para que possa se provar útil a pessoas pouco
inclinadas a digitar buscas na tela do iPhone.
O serviço pode ser usado para obter
recomendações de restaurantes e instruções de como chegar a
determinados endereços, para localizar contatos na agenda ou
resolver disputas em bares. A pergunta "qual é a melhor pizzaria do
Noe Valley" oferece três endereços de restaurantes naquele bairro de
San Francisco, todos eles elogiados por usuários do Google, e links
que permitem telefonar para os estabelecimentos ou descobrir como
chegar até lá.
Raj Reddy, pesquisador de
inteligência artificial na Universidade Carnegie Mellon e
responsável por trabalhos pioneiros quanto a reconhecimento de voz,
disse que a vantagem do Google nesse campo era a capacidade de
armazenar e analisar vasto volume de dados. "O que quer que eles
venham a introduzir agora será muito mais preciso dentro de três a
seis meses", ele disse.
"É importante compreender que o
reconhecimento por máquina jamais será perfeito", acrescentou Reddy.
"A questão é quanto eles podem se aproximar do desempenho humano".
Para o Google, essa é uma tecnologia essencial para seu próximo
avanço no mercado de publicidade. Executivos do Google dizem que um
serviço de buscas por voz com recursos de localização tornaria
possível cobrar mais pela publicidade dos estabelecimentos mais
próximos do ponto de origem da pesquisa, por exemplo, ainda que esse
tipo de anúncio ainda não esteja disponível.
Como no caso de outros produtos do
Google, o serviço é gratuito para os consumidores, e a companhia
planeja no futuro oferecê-lo em outros aparelhos que não o iPhone.
"Estamos ampliando dramaticamente o valor oferecido aos anunciantes,
com a combinação de buscas por voz e localização", disse Vic
Gundotra, ex-executivo da Microsoft que agora comanda os serviços do
Google para aparelhos móveis.
O Google nem de longe é a única
empresa a trabalhar em capacidades mais avançadas de reconhecimento
de voz. Já existe tecnologia de resposta de voz em uso rotineiro em
centrais de atendimento telefônico e em outros produtos e serviços
ao consumidor. Mas esses sistemas têm problemas com as complexidades
da linguagem em forma livre, e em geral oferecem uma gama limitada
de respostas a quaisquer questões.
Algumas semanas atrás, a Adobe
acrescentou tecnologia de reconhecimento de voz criada pela Autonomy,
uma produtora de software britânica, ao seu software Creative Suite,
o que permite gerar transcrições de gravações de áudio e vídeo com
alto grau de precisão.
Gundotra disse que o Google vem
enfrentando o duplo problema da inserção e recuperação de
informações em aparelhos portáteis sem fio. "Resolver esses dois
problemas de forma avançada é o nosso objetivo", disse.
A nova capacidade de busca do iPhone
não é a primeira experiência do Google com reconhecimento de voz. Em
março, a empresa anunciou que o GOOG-411, um serviço experimental de
lista telefônica, seria transformado em produto real. Ele permite
que os usuários solicitem informações sobre telefones e endereços
comerciais. A empresa informou que havia aproveitado a experiência e
os dados recolhidos com o GOOG-411 para desenvolver o novo serviço
para o iPhone.
O novo serviço é um exemplo de como o
Google tenta combinar ciência da computação básica e engenharia de
produtos. A empresa contratou diversos dos mais conhecidos
pesquisadores de reconhecimento da fala do mundo, e agora tem
equipes trabalhando sobre diferentes aspectos do problema em Nova
York, Londres e em sua sede, em Mountain View, Califórnia.
Uma parte interessante do sistema foi
criada por um pesquisador do Google em Londres, que descobriu uma
maneira de usar o acelerômetro do iPhone ¿o componente que "sente"
em que posição está o aparelho- para ditar que o software seja
acionado em modo "escutar" quando o celular é levado ao ouvido do
usuário.