Sabia que tem ajudado na digitalização de livros antigos?

Pplware

Sabia que tem ajudado na digitalização de livros antigos?"


Play all audios:

Loading...

Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um utilizador (garantindo que é um utilizador e não uma máquina/programa


de computador), perante uma página/serviço Web.


Luis von Ahn, um dos criadores dos captchas, apresentou recentemente no Ted.com a evolução do projecto captcha à qual foi dado o nome de reCAPTCHA. Luis von Ahn referiu que o tempo que um


utilizador gasta a interpretar uma CAPTCHA não é usado para qualquer finalidade. Assim, porque não aproveitar esse tempo e conceito associado ao projecto CAPTCHA para digitalizar livros?


Veja o vídeo da apresentação do Luis von Ahn intitulada Massive-scale online Collaboration; e leia a tradução que preparamos em português:


Quantos de vocês já tiveram de preencher um formulário na Web onde vos pediram para ler uma sequência distorcida de caracteres como esta? Quantos de vocês acharam isto irritante? OK,


espetacular, fui eu que inventei isso...ou pelo menos fui um dos que inventou isso. A esta coisa chama-se CAPTCHA.


E está ali para certificar que quem está a preencher o formulário é sem duvida um humano e não um programa informático desenvolvido para submeter o formulário milhões e milhões de vezes.


Isto funciona porque os humanos, pelo menos os humanos sem limitações visuais, não têm qualquer problema em ler estes caracteres distorcidos, enquanto os programas informáticos simplesmente


ainda não o conseguem fazer tão bem. Por exemplo, no caso do Ticketmaster, a razão pela qual temos de escrever caracteres distorcidos é para prevenir os "burlões" de escrever um software que


consiga comprar milhões de bilhetes...dois de cada vez, etc, etc.


Os CAPCTHAs são usados em toda a Internet. E como eles são usados com tanta frequência, muitas vezes, a sequência de caracteres aleatórios que é mostrada ao utilizador, não é muito "feliz".


Aqui está um exemplo da página de registo do Yahoo. Os caracteres aleatórios mostrados ao utilizador foram W A I T, que obviamente formam uma palavra. Mas a melhor parte é a mensagem que os


serviços da Yahoo receberam cerca de 20 minutos mais tarde.


Texto: "Ajudem-me! Estou a espera há mais de 20 minutos e nada acontece" 🙂


O projecto CAPTCHA foi algo que desenvolvemos aqui na Universidade de Camegie Mellon há cerca de 10 anos e é usado por todo o mundo. Deixem-me falar-vos de um projecto que desenvolvemos


posteriormente e que é uma espécie de evolução do CAPTCHA. É um projecto a que chamamos de reCAPTCHA, que é algo que começamos aqui na Camegie Mellon, e que transformamos numa Startup. E, há


cerca de um ano e meio, a Google comprou esta empresa.


Este projecto começou através da seguinte percepção:  Aproximadamente 200 milhões de CAPTACHs são escritos todos os dias por pessoas em todo o mundo. Quando escrevemos um CAPCTHA,


desperdiçamos cerca de 10 segundos do nosso tempo  e se multiplicarmos isso por 200 milhões, percebemos que a humanidade, no seu todo, gasta cerca de 500.000 horas todos os dias a escrever


CAPTCHAS irritantes. No entanto, não nos podemos livrar dos CAPTCHAS pois parte da segurança da Web depende deles!


Existe alguma forma de reaproveitar este esforço para algo que seja com para a humanidade?


Reparem no seguinte: Quando escrevem o CAPTCHA, durante esse 10 segundos, o vosso cérebro está a fazer algo fascinante. O vosso cérebro está a fazer algo que os computadores ainda não


conseguem fazer!


Como é que conseguimos que os 10 segundos "desperdiçados" se transformem em algo útil?De outra perspectiva, existe um problema gigantesco que não conseguimos que os computadores resolvam, no


entanto podemos dividi-lo em períodos de 10 segundos, de tal forma que, sempre que alguém escreve um CAPTCHA se resolva uma pequena parte deste problema?


E a resposta é "sim!" e é isso que estamos a fazer agora. Por isso o que podem não saber é que hoje em dia, enquanto escrevem um CAPTCHA, estão, não só a "autenticar-se" como humanos, mas


também estão a ajudar a digitalizar livros.


Escrever CAPTCHAS estão a ajudar a escrever livros. Como funciona?


Existem imensos projectos por aí a tentar digitalizar livros. A Google tem um...O Internet Archive tem outro, A Amazon agora com o Kindle...etc.


Basicamente a forma como funciona é: começa-se por pegar num livro velho e depois digitalizamo-lo. Digitalizar um livro é como tirar uma fotografia digital a cada página do livro. Isto é,


uma imagem com texto por cada página do livro. O próximo passo no processo é o computador decifrar todas as palavras da imagem, usando para isso uma tecnologia denominada de OCR...o problema


é que o OCR não é perfeito!...especialmente para livros mais velhos onde a tinta está a falhar e as páginas já estão amarelas, fazendo com que o OCR não consiga reconhecer muitas palavras.


Por exemplo, para livros escritos há mais de 50 anos, o computador não consegue reconhecer cerca de 30% das palavras.


O que se está a fazer agora é extrair todas as palavras que o computador não consegue reconhecer e fazer com que as pessoas leiam por nós, enquanto escrevem um CAPTCHA nos vários serviços da


Internet.


Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue


reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o


sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.


Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É


assim que o nosso sistema funciona !!!


O Twitter, Facebook e cerca de 350.000 outros sites, já estão a usar o reCAPTCHA. Atualmente, com o número de sites que estão a usar o novo reCAPTCHA, o numero de palavras obtidas


diariamente é realmente grande.  Por serem dadas duas palavras, acontecem também situações "engraçadas". Como as palavras são fornecidas de forma aleatórias, podem aparecer coisas como "mau


Cristão"...não tem nada de mal, nem sequer queremos insultar ninguém...são coisas do sistema! 🙂


750,000,00 (cerca de 10% da população mundial), é o numero de pessoas que já ajudaram a digitalizar, pelo menos uma vez, um livro através do sistema reCAPTCHA, aumentando assim o


"conhecimento humano" digitalizado.


Como é que conseguimos que  100 milhões de pessoas, gratuitamente, traduzam a Web para as principais linguas? Concentrem-se a partir ddo minuto 9h15 o objectivo do novo projecto que se chama


 Duolingo e que brevemente apresentaremos no Pplware.


Sabia que ajudava na digitalização de livros antigos. O que acha desta ideia?


E com isto estamos mais uma vez a fazer com que a google predomine no mercado da internet, sem o nosso conhecimento.


Bem, pelo que está numa das imagens acima, leio que “Google Acquires reCAPTCHA”.


Sendo assim, creio que o valor que vais pagar quando o livro estiver digitalizado e no repositório da google é.. 0!;)


Inicialmente colocava as duas palavras, depois descobri que não era necessário e passei só para uma. Mas aqui há uns meses atras li este assunto num blog de tecnologia qq e voltei a colocar


as duas palavras e dar o meu contributo


Hum ideia fantástica, mas à imagem dos Captchas não está já associado a um respectivo código/texto dactilografado? Ou seja, o conteúdo da imagem, não está já digitado sob a forma de texto


que permite a comparação entre o que digitamos e o arquivo associado à imagem? Desculpem a ignorância de estiver a dizer uma barbaridade.


Uma das palavras sim uma das palavras é conhecida… o que permite confirmar se és humadno 😛


Ah já percebi obrigado pela partilha 😉 Agora já faz sentido.


correcção: “…Desculpem a ignorância se estiver a dizer uma barbaridade.”


Mais uma ideia impressionante que o google implementa. Também conheci este projecto há pouco tempo, acredito que se houver bastante adesão no projecto Duolingo, podemos vir a ter acesso ao


(Eu sei português e quero aprender alemão). Actualmente para aprender alemão, tem que se saber inglês ou espanhol neste site. Mas isso será matéria, como o Pedro disse para um próximo


artigo.


heheh Pelo que percebi a palavra do livro é sempre a mais fácil de interpretar.


Pedro depende dos livros as palavras dos livros sao sempre as que o OCR nao consegue identificar


Por acaso já sabia que ajudava na digitalização de livros à muito tempo.


Acho é incrédulo como é que tanta gente que por aqui comenta e que está obviamente ligado ao mundo das TI’s não saber o que estava a fazer ao introduzir um CAPTCHA. Ainda por cima isto é


algo que fazemos provavelmente todas as semanas, como é que nunca vos despertou curiosidade para pesquisar sobre o assunto?


Claro que há coisas mais importantes, concordo plenamente. No entanto acho estranho porque já surgiram inúmeros artigos sobre isto no passado (não em português) pelo que pensei que a maioria


sabia o que estava a fazer ao digitar um captcha.


Como já referi, apenas demonstrei estranheza por verificar que a maioria desconhecia, esta “2ª finalidade”. Não queria ofender ninguém.


de acordo ctg,o mundo infelizmente está cheio de pessoas q se julgam os maiores. como é o caso do joão


A ideia é excelente, mas serei só eu que não suporto os CAPTCHA? Por vezes há alguns que são simplesmente impossíveis de ser compreendidos e só prejudicam o utilizador.


Consegues sempre perceber qual é a digitalizacão da palavra obrigatória?


Tenho uma questão. Se nós estamos a ajudar na digitalização de duas palavras em cada captcha, como é que ele sabe que escrevi o que está realmente lá se supostamente sou eu que as vou


digitalizar?


“Por isso, da próxima vez que escrevem um CAPTCHA, as palavras que escreverem, são de facto palavras que saem de livros que estão a ser digitalizados e que o computador não consegue


reconhecer. A razão por hoje em dia existirem duas palavras no CAPTCHA é porque uma das palavras é do livro, a qual o sistema não sabe qual é, e depois uma segunda palavra para o qual o


sistema conhece a resposta. O sistema não diz qual das palavras é a do livro e por isso, caso acertem na palavra que ele valida, então ele assume que a palavra foi escrita por um humano.


Se repetirmos este processo, por exemplo, por 10 pessoas diferentes, e se todas as pessoas concordarem sobre qual é a nova palavra, então temos mais uma palavra digitalizada correctamente. É


assim que o nosso sistema funciona !!!”


Não são as duas é apenas uma e só é aceite a nova palavra quando um determinado número de pessoas escreve a mesma palavra.


São apresentadas duas palavras, uma o computador conhece, a outra é desconhecida e é essa que é a contribuição para a digitalização do livro.


Não vejo qual o interesse de saber qual das duas é a conhecida ou a desconhecida. Meto sempre as duas.


Fantástico! sem dúvida… mas há tanta gente em todo mundo a precisar de trabalhar para comer… E com tanto dinheiro que o mundo digital dá… não sei se não considero isto uma exploração sem


autorização


Já sabia disto. Acho a ideia muito boa e tenho colaborado desde que descobri para que servia a 2ª palavra, mas agora a dificuldade da palavra de verificação está terrível. Acho que estão a


abusar bué. Quando se tem de escrever o captcha 3-4 vezes pa acertar perde-se a boa vontade. As queixas de exploração tb têm alguma razão mas ao menos é trabalho útil.


Isso soa como uma desculpa para as pessoas pararem de reclamar desses tumores que tanto irritam.


Eu também acho que as pessoas reclamam de qualquer coisa, mas quando devem reclamar dos seus direitos, encolhem-se, ficam com medo e não fazem nada, eheh


a meio do vídeo pensei: então se o computador não sabe o que a palavra quer dizer como é que vai saber que os utilizadores estão a dizer a verdade?


depois vi que era tão simples com 2 palavras e pensei sou mesmo burro lol


Os capchas tem sido uma das maiores barreiras á acessibilidade e usabilidade de um site.


Estive ainda com mais atenção quando falaram do duolingo, realmente é uma solução muito boa mas… o portugues (uma das linguas pouco traduzidas na internet) continua a ser posta de lado… no


site apenas surge Ingles, Alemão, Espanhol e Francês…


Normalmente os CAPTCHAs dão para escrever sem acentos, nos livros digitais, também irá ficar sem acentos??


secalhar essa é a palavra que o captchas conhece, a outra é a que tu identificas-te


Pois é, eu não quero ser crítico pq tenho até tendência de ser fã de todas as ideias inteligentes. Então sou fã de mais esta, como o marketing consegue pegar numa coca cola, integrá-la num


marketing da felicidade q leva até a esquecer o quão mal esta faz à saúde.


Aqui é igual, um marketing muito bonitinho para a tecnologia mais irritante da internet!


Trending News

Curso "Data Protection Officer - Proteção de Dados e Privacidade"

Online Curso "Data Protection Officer - Proteção de Dados e Privacidade" Participe! quarta-feira, 1 de setembro de 2021 ...

jose-socraste - notícias, política, opinião, fotos e podcasts

Sexta-feira, 6 Jun AmanhãAmanhãPolíticaSociedadeEconomiaInternacionalOpiniãoCulturaDesportoTemasGuerra na UcrâniaEducaçã...

"Está tudo alagado", diz moradora do Jardim Pantanal, na zona Leste de SP

"Está tudo alagado", diz moradora do Jardim Pantanal, na zona Leste de SPMoradores estão ilhados há três dias e precisam...

Bancários decidirão hoje sobre greve por tempo indeterminado

Bancários de todo o país decidem hoje em assembléias se entram em greve por tempo indeterminado a partir de amanhã. Em C...

Rua próximo a Vila Germânica é interditada a partir desta segunda-feira em Blumenau

SC no Ar Telejornal que aborda temas importantes para a população catarinense e que podem influenciar nas tomadas de dec...

Latests News

Sabia que tem ajudado na digitalização de livros antigos?

Todos os que usam a Internet já usaram certamente CAPTCHAs. Esta funcionalidade permite garantir a autenticidade de um u...

Ibovespa registra recorde ao ultrapassar 102 mil pontos

O Ibovespa, principal indicador de desempenho das ações negociadas na B3, antiga Bovespa, registrou recorde nesta sexta-...

Conheça os pratos do circuito do sabor 2015

A Associação Comercial, Industrial, de Serviços e Agropecuária de Itabira (Acita) divulgou nessa quinta-feira, 22 de jun...

Asae instaura 18 processos a restaurantes de 'fast food'

A Autoridade de Segurança Alimentar e Económica (ASAE) fiscalizou 84 restaurantes de 'fast food' em todo o paí...

Faça amigos reais via on-line

Como muitas pessoas mais velhas, Paula Rice, moradora do estado de Kentucky, ficou cada vez mais isolada nos últimos ano...

Top