Web semàntic. Internet 3.0

La quantitat d’informació que hi ha al web és gairebé inimaginable i continua creixent de manera exponencial dia a dia. Per tal de poder accedir a aquesta informació primer hem de ser capaços de localitzar-la dins d’aquest gegantí conjunt de documents que ens presenta la World Wide Web.

La quantitat d’informació que hi ha al web és gairebé inimaginable i continua creixent de manera exponencial dia a dia. Per tal de poder accedir a aquesta informació primer hem de ser capaços de localitzar-la dins d’aquest gegantí conjunt de documents que ens presenta la World Wide Web.

Per tal de poder trobar aquesta informació només disposem dels cercadors. Aquestes eines es dediquen a rastrejar totes les Webs seguint unes regles predeterminades, que cadascun d’ells defineix en els famosos algoritmes de cerca. Com a usuaris accedim als cercadors i busquem les paraules relacionades amb la informació que volem trobar i accedim a aquesta informació des d’allà.

Aquest mètode presenta diverses complicacions. Podem comprovar que no apareixen els mateixos resultats usant les mateixes paraules però diferents cercadors. Cadascun dels cercadors utilitza regles diferents per accedir a la informació i donar-li una importància relativa, i aquestes regles són les que marquen com apareix aquesta informació. Aquestes regles les defineixen els gestors dels cercadors i no els creadors dels documents. Per altra banda determinades paraules ens poden donar un munt de resultats que no ens interessen doncs les paraules tenen diferents valors en funció del context o existeixen moltes paraules polisèmiques. De la mateixa manera, també ens poden quedar molts resultats fora de la llista per context o per l’ús de sinònims.

Aquestes problemàtiques de les cerques d’informació amb paraules clau està fortament relacionada amb el format que té ( tenia ) actualment la web. Estem parlant d’una xarxa de documents i aquests documents són perfectament comprensibles pels humans, doncs com a humans tenim coneixements contextuals, coneixements del món que ens envolta i experiència. Aquests trets ens permeten de filtrar la informació que tenim al davant de manera senzilla. Quan veiem un document, una pàgina web, veiem clarament què és el contingut i què és publicitat, quina part del contingut és la més important, la que estàvem buscant, com està relacionat el contingut. Però totes aquestes accions no són factibles per a una màquina, o si més no, no són tant trivial com per als humans.

Així quan una màquina llegeix una pàgina web, pot llegir les paraules que hi ha, fins i tot amb tècniques de procés de llenguatge natural pot arribar a fer algun tipus de contextualització i d’anàlisi gramatical, però encara queda lluny de la capacitat humana de processat de la informació.

Per exemple si busquem Barcelona en un cercador és molt probable que ens aparegui en primer lloc la ciutat de Barcelona ( Catalunya ) donada la seva importància però també perquè entem connectats a Internet des d’un punt molt proper a aquesta ciutat i per tant el cercador interpreta que el nostre interès està en aquesta ciutat en concret. Però si mirem a la wikipèdia en anglès per Barcelona o en català, podem trobar molts d’altres resultats.

Per a la solucionar d’aquest problema apareix el que es coneix com el web semàntic i els cercadors semàntics i d’altres eines.

El web semàntic és un conjunt d’estàndards que s’estan potenciant des del W3C, entitat encarregada de crear els estàndards de les tecnologies d’Internet, per tal de poder fer pàgines web amb càrrega semàntica. Aquesta càrrega semàntica ha de permetre a les màquines de processar la informació que es presenta en aquesta pàgina web de la mateixa manera que la pot processar una persona, és a dir, veure que és important i que no és important, veure com està relacionada la informació, veure el context d’aquesta informació, etc.

Aquesta aportació semàntica a la web es fa afegint etiquetes a la informació que es presenta a la pàgina web, que no són visibles per als humans però sí per a les màquines. D’aquesta manera les màquines poden processar més correctament aquesta informació doncs tenen guies de com interpretar-la.

Amb la inclusió d’aquestes etiquetes semàntiques es pretén de passar d’una web basada en document a una altre web basada en dades on podran accedir tant els humans com les màquines.

Dins d’aquesta web de les dades les màquines són capaces de processar aquesta informació de manera més acurada, trobar relacions entre les diferents informacions i generar nous coneixements en base a aquesta informació que han processat i s’allibera a les persones de fer aquest procés que pot ser costós en molts casos.

Per exemple si en una pàgina web parla d’una pel·lícula històrica amb els seus personatges i actors, si estan ben identificats qui són els actors i qui els personatges un ordinador pot trobar fàcilment informació sobre els personatges reals i pot trobar informació sobre el moment històric que es descriu a la pel·lícula, altres fets relacionats, etc. També podrà buscar informació sobre els actors, altres pel·lícules que han fet, premis que han rebut i d’altres informacions relacionades amb ells. Serà la pròpia màquina la que pugui fer aquetes relacions entre el contingut. Això aplicable a una pel·lícula pot ser també aplicable a qualsevol altre camp.

Els cercadors semàntics que usen aquestes tecnologies s’encarreguen de generar aquesta nova informació. Els cercadors poden ser més acurats a l’hora de realitzar les cerques doncs tenen aquesta informació semàntica que contextualitza els continguts i per tant poden presentar els resultats que s’ajusten més a la cerca concreta i fins i tot presentar la informació que han deduït del contingut que pot ser interessant per a la persona que sol·licita aqueta informació. Ens podríem trobar en el cas que busquéssim per una pel·lícula i també ens aparegués el fet històric que relata.

La tecnologia que hi ha darrera dels cercadors semàntics és només una petita fracció del que permet la semàntica aplicada als continguts. Basant-se en els anàlisis de llenguatge natural cada cop més precisos i de la contextualització de la informació juntament amb diverses tècniques de lògica, processos de decisió i altres definicions es pot crear coneixement nou basant-se en el coneixement ja existent. Un exemple bàsic si jo sé que en Pere és un actor, puc deduir sense que ningú m’ho digui que és una persona, acabo de generar coneixement per inferència.

Alguns exemples divertits de les limitacions de la web actual, a veure com contesteu les següents preguntes:

A quina velocitat pot córrer un jaguar?

Per quins països passa un riu conegut com Espíritu Santo i que recorre més de 3000 quilòmetres?

Links d’interès.

W3C The World Wide Web Consortium

Web semàntic. Viquipèdia

Knowledge Engineering with Semantic Web Technologies. Curs en línia.

Imatge del post By Sqrt66 at en.wikipedia [Public domain], from Wikimedia Commons

El riu que fem esment és el Mississipi que quan se’l va trobar Hernando de Soto el va anomenar rio del Espiritu Santo. Per tant només passa per Estats Units d’Amèrica.

http://bit.ly/10QZ1GJ

Depenen del jaguar que estem parlant podem tenir diferents velocitats:

Jaguar animal felí de Sudamèrica, pot arribar a 80 quilòmetres per hora, http://bit.ly/1zf7oI8

Hi ha un avió que s’anomena jaguar i que pot arribar a 1.593 km/h. http://bit.ly/10R2pld

Tenim també els cotxes Jaguar que dependent del model poden passar dels 300 quilòmetres per hora.

Des de la ignorància. El blog de n'Emili Masnou

Cercar en aquest blog