Médiakutató 2010 tavasz

Új média

Herendy Csilla:

A kereső, a dokumentumok és a user

A szemantikus web egy lehetséges nézőpontja

„Szóljunk most a megszállottakról: a különcökről, lázadókról, bajkeverőkről.
Színes megoldásaikról a szürke problémákra. Róluk, akik máshogyan látják a világot.
Nem tűrik a korlátokat és nem tisztelik a szokásokat.
Idézhetjük, cáfolhatjuk, isteníthetjük, vagy átkozhatjuk őket.
Az egyetlen, amit nem tehetünk: nem hagyhatjuk figyelmen kívül őket.
Mert ők változtatják meg a világot és viszik előbbre az emberiséget.
S bár sokan őrültnek látják őket, mi a zsenit látjuk bennük; hiszen aki elég őrült ahhoz, hogy
elhiggye, képes megváltoztatni a világot – végül valóban meg is teszi.”

Apple – Think Different

Az alábbi írásban a szemantikus web elképzeléssel foglalkozom. Megpróbálom felvázolni alapjait, röviden körbejárni a témát és bemutatni azokat a legfontosabb fogalmakat, amelyeket a szemantikus web elképzeléssel kapcsolatban szokás tárgyalni napjainkban, 2009 derekán1. Az írás harmadik fejezetében a szemantikus web elképzelést – egy külső nézőpont felvételével – a keresőprogram, a kereshetővé tett dokumentumok és a felhasználó (user) vizsgálatának segítségével tárgyalom.

1. Web 1.0, web 2.0, web 3.0: rövid áttekintés

1.1. Web 1.0

A web 3.0 előzménye a web 2.0, annak pedig a web 1.0. Történeti, és nem minőségi előzménye. A web 3.0 sem egy újfajta web, hanem a meglévő egyfajta „kiterjesztése”, fejlődési útja.

A web 1.0 alatt az 1990, web 2.0 alatt pedig a net 2001 utáni időszakát szokták érteni. A web1.0, a „hőskor” – a web 2.0 szemszögéből (is) nézve – nem szól másról, mint az online jelenlétről, a megmutatkozásról, cégek esetében a prospektus jellegű (ritkán frissülő) weboldalakról, egyes személyek esetében a portfolió és egyéb bemutatkozó oldalakról, a különböző híroldalakról, vagyis a papírvilág egyfajta online leképezéséről, ahol a visszajelzés magától értetődő formája az e-mail vagy a telefon. Hasonló módon képeztük le az 1990-es évek során a papírvilágot online felületen, mint ahogyan Gutenberg első nyomtatott, 42 soros Bibliája a kézírást igyekezett a sorokba szedett ólombetűk segítségével megjeleníteni.

1.2. Web 2.0

Amíg a web 1.0 az online jelenlétről és a közzétett információról, addig web 2.0 (többek között) a felhasználók által generált tartalomról és a közösségekről, a közösségi cselekvésről szól.

A web 2.0-ről a 2001-es dotcom válság után kezdtek el beszélni, és az első, a témával kapcsolatos konferenciát – amelynek célja az volt, hogy a dotcom válság után megpróbálják helyreállítani a piac bizalmát, és feltárják, hogy bizonyos vállalatok miért élték túl a válságot – 2004-ben tartották. A web 2.0 kifejezés ezután, valamint Tim O'Reilly-nek köszönhetően vált ismertté2. Akkoriban a web 2.0-t úgy igyekeztek meghatározni, hogy számba vették a web 1.0 és web 2.0 közötti különbségeket, pl. Britannica Online (web 1.0 esetében) --> Wikipedia (web 2.0 esetében), publishing (web 1.0 esetében) --> participation (web 2.0 esetében), personal websites (web 1.0 esetében) --> blogging (web 2.0 esetében). (Az összehasonlítást lásd bővebben az 1-es ábrán.). A konferenciát követően az ábra a neten szélsebesen terjedt, O'Reilly később néhány pontján korrigálta, pontosította (O'Reilly, 2005).

1. ábra Web 1.0 és web 2.0 összehasonlítás, Tim O'Reilly. (O'Reilly, 2002)

Web 1.0 Web 2.0
DoubleClick --> Google AdSense
Ofoto --> Flickr
Akamai --> BitTorrent
mp3.com --> Napster
Britannica Online --> Wikipedia
personal websites --> blogging
evite --> upcoming.org and EVDB
domain name speculation --> search engine optimization
page views --> cost per click
screen scraping --> web services
publishing --> participation
content management systems --> wikis
directories (taxonomy) --> tagging („folksonomy”)
stickiness --> syndication

További frappáns összehasonlítások a blogszférából:

Web 1.0: You and I
Web 2.0: Us

Web 1.0: Bring the web into our lives
Web 2.0: Bring our lives into the web3

Web 1.0: „Under construction”
Web 2.0: „Beta”

2. ábra Web 1.0:
„Under construction”

3. ábra Web 2.0:
„Beta”

Tim O'Reilly a web 2.0-t a „kollektív intelligencia felhasználása”-ként határozta meg, azonban a web 2.0 fogalmát illetően (természetesen) nincsen olyan definíció, amely mindenki számára elfogadható lenne. Sokan a közösségek erejét látják benne, mások „jelentés nélküli marketing buzzword”-nek gondolják4 (O'Reilly, 2005), egyesek pedig a web 2.0-ről beszélve kritikus jelleggel megemlítik, hogy a fogalom az üzletemberek számára a business 2.0-t, míg a szkeptikusok számára inkább dotcom 2.0-t jelenti.5

Abban azonban többnyire egyetértés van, hogy a web 2.0 a közösen létrehozott tudásról, összeadott értékekről, közösségi hálózatokról szól, így jó példája a Wikipedia, a Flickr vagy a Facebook.

1.3. Web 3.0

Sokakban merül fel a kérdés: és mi lesz a web 2.0 után? Milyen lesz majd a web 3.0? Szemantikus (semantic) web? Érzékelő/érző (sentient) web? Esetleg szociális (social) web? Vagy talán mobil (mobile) web? Esetleg a virtuális valóság valamely formája? „Mindezek egyszerre, de még annál is több” (O'Reilly–Battele, 2009: 2).

A lehetőségeknek az egyike a szemantikus web elgondolás, amely Tim Berners Lee-től (Berners Lee, 1998) származik, 1998-ból.6 A szemantikus web víziójáról úgy szokás beszélni, mint az „értő” vagy „intelligens” webről, ahol az információk rendezettek, a keresés magától értetődően könnyű és precíz, ahol minden felhasználó egyszerűen és gyorsan megtalálja egészen pontosan azt az információt, amire szüksége van. Ideája tehát a „tökéletes keresés” és az „értő web”, amely elérése érdekében többen, többféle megoldást javasolnak, és a keresés tökéletesítésére is sokféle fejlesztés van folyamatban.

2. Mi az alapprobléma?

2.1. Mennyiség, minőség, rendezetlenség

A weben temérdek mennyiségű információ található. A Berkeley Egyetem egyik tanulmánya szerint7 pedig manapság naponta több információt hozunk létre és tárolunk digitális formában, mint amennyit eddigi történelmünk folyamán papíron összesen létrehoztunk. A Royal Pingdom adatai8 szerint 2008-ban 162 millió önálló host-névvel rendelkező weboldal létezett, a Google pedig saját elmondása szerint 2005-ben 8 058 044 651 weboldalt indexált, de ez a szám nem tartalmazza azon oldalak millióit, amelyeket a Google nem talál meg.9

Ez a mennyiségű weboldal több ezer exabyte-nyi adatot jelent, amelyek között szinte lehetetlenség keresni és szinte azonnal olyan találatot kapni, amely tökéletesen megfelel a felhasználó igényeinek.

A weben található információk minőségét és rendszerezését a könyvtárban található információkkal szokták szembeállítani.10 Egykoron a könyvtárak igyekeztek minden emberi rögzített kultúrkincset azonosíthatóvá, visszakereshetővé és feldolgozhatóvá tenni (Hantos, 2009). Erre szolgál(t) többek között a köteles példány intézménye, házon belül pedig a különböző adathordozók címkézése (meta-információkkal való ellátása). Ennek köszönhetően a könyvek, periodikák, egyéb digitális adathordozón őrzött anyagok rendezetten, ellenőrzött formában és visszakereshetően találhatóak meg a könyvtárban. A kinyomtatás és a könyvtárba kerülés ténye optimális esetben egyfajta szűrést és előzetes válogatást jelent: nem mindenki, nem mindegyik és nem mindenféle színvonalú anyagát nyomják papírra, fűzik könyvvé és adják ki.

Ezzel szemben az online információk esetében nincsen jelen a nyomtatott világban említett rendszerezés és „szűrés”: bárki publikálhat bármilyen anyagot,11 tehet közzé tényeket, híreket és információkat, blogolhat. Ennek a szabadságnak és költségtakarékosságnak köszönhetően gyakran léteznek online formában olyan tudományos jellegű és igényességű írások is, amelyeknek nem létezik nyomtatott megfelelőjük, sok esetben például a konferenciák kiadványait sem feltétlenül nyomtatott, hanem kizárólag elektronikus formában adják ki a szervezők.

Ennél fogva, a net sokmilliónyi weboldalán felbecsülhetetlen mennyiségű és változatos színvonalú információ van jelen. Így merül fel a keresés kérdésköre és a tökéletes keresés eszményképe: hogyan találja meg a felhasználó pontosan azt az információt, amelyikre szüksége van? Ha a felhasználónak szüksége van valamire, de nem tudja, hol és hogyan találja meg (de valószínűsíti, hogy ebben az információtömegben létezik valahol a keresett információ), akkor nagy valószínűséggel valamelyik kereső szolgáltatását fogja igénybe venni. (Vagy a tematikus linkgyűjteményeket tartalmazó, illetve a közösségi oldalak segítségével próbálkozik hozzájutni a keresett információhoz.)

2.2. Sekély web, szürke web, mély web

Mit látnak a keresők a neten jelenlévő temérdek mennyiségű információból? Miért csak egy részüket találják csak meg?

A neten sokféle típusú és többféle formájú információ található. Ezek egy része ember által létrehozott dokumentum (HTML, word vagy excel fájlok, PDF-ek, Power Pointok stb.), másik része pedig nem (pl. adatbázisok, statisztikák, egy-egy webszerver havi statisztikája, látogatottsági adatok). Az adatok, információk egyik (mennyiségileg kevesebb) része a szöveges, HTML formában leírt adat. Ezeket az adatokat a keresők „látják” és többnyire könnyen meg is találják. Az információkat azonban nemcsak szövegesen (mondatokat formálunk, és egymás után tesszük), hanem táblázatokba, adatbázisokba rendezve is tudjuk tárolni.

„A nyelv alapú dokumentumok, azaz a szöveg és az adatbázis, eltérő minőségű és mértékű belső strukturáltsága alapján élesen elválasztódnak egymástól a szövegszerű és az adatszerű információkezelés módozatai. Az adatszerű információkezelés adatbázisokba rendezi a szövegben is kifejezhető nyelvi információt úgy, hogy az adatbázis magasabb fokú strukturáltsága miatt könnyebben és gyorsabban lehet a keresett információt kinyerni az effajta dokumentumokból. Nem véletlen, hogy a hálózaton keresztül elérhető tartalom egészében, nagyságrenddel nagyobb az adatbázisokba szervezett információ mennyisége a szövegszerű tartalom méretéhez képest” (Szakadát, 2007: 71).

A szövegszerű, statikus keresők számára egyszerűen elérhető tartalmat a weben sekély webnek szokták nevezni. A keresők ezeket az adatokat könnyen elérik, feltéve hogy az adott oldalnak létezik valamiféle linkkapcsolata a web felé.

A sekély web mellett mély webről is szokás még beszélni. A mély web (deep web) fogalom az interneten tárolt olyan tartalmakat jelenti, amelyek a keresők számára a legtöbb esetben elérhetetlenek, nehezen feltérképezhetők. Ide tartoznak a különböző adatbázisok és a nem szöveges dokumentumok is. Ezeket ugyanis a keresők jellemzően nem, vagy csak igen kivételesen találják meg. (Pl. nehéz arra keresni, hogy egy bizonyos terméket bizonyos áron hol találok meg, és ezek között van-e olyan bolt, ami vasárnap este is nyitva van. Ugyanakkor pl. az Amazon, a Facebook, a Twitter, a WikiPedia és a YouTube adatbázisából a Google képes találatokat felmutatni.)

Mivel az adatbázisok strukturáltságát a keresők nem képesek megérteni, ezért a bennük tárolt tartalmat sem tudják feltárni, értelmezni. „A keresőmotor megtorpan az adatbázis kapuja előtt.”12A kereső képes ugyan adatot kinyerni az adatbázisból, azonban ezzel az adattal nem tud mit kezdeni. A szöveget megtalálja, de a jelentését nem tudja értelmezni.

A sekély web – mély web elválasztása nem egyértelmű, a nehezen besorolható tartalmak a szürke zónába tartoznak.

Becslések szerint a mély weben nagyságrendekkel (400-500-szor) több adat található, mint a sekély weben. Egy 2001-es tanulmány (Bergmann, 2001) szerint a mély weben tárolt információ mennyisége 7500 terabyte, a sekély weben tárolté pedig 19 terabyte. A mély web 550 milliárd, míg a sekély web egymilliárd önálló dokumentumot tartalmazott. A Berkeley Egyetem egyik, 2002-ben végzett (extrapoláción alapuló) becslése szerint 91 850 terabyte a mély, és 167 terabyte a sekély weben tárolt információ becsült mennyisége (Kallinikos, 2006).

2.3. Keresők, keresés: megtalálják-e a keresők a releváns információkat és hogyan?

Megtaláljuk-e a keresett információt, és ha igen, várhatóan milyen sikerrel, ha keresők segítségét vesszük igénybe?

A weboldalak milliárdjain elérhető információról el tudják-e dönteni a keresőmotorok, hogy az ott található információ egy adott téma szempontjából mennyire releváns, vagy hogy az megfelel-e a valóságnak?

A dokumentumok ellenőrizetlensége miatt az interneten történő keresés alapvetően különbözik egy meglévő, lassan változó, kontrolláltan kezelhető dokumentumtárban (pl. könyvtárban) történő kereséstől (Szeredi & Lukácsy & Gergely, 2005: 30). Az internetes kereséskor nem elegendő, ha a kereső a keresőkérdésre pontosan illeszkedő dokumentumot ad ki. A legjobb találatoknak ugyanis a szöveges egyezésen túl egyéb jellemzői is vannak, úgymint a frissítési gyakoriság, minőség, az oldalra mutató hivatkozások száma, az oldal népszerűsége stb. (Szeredi & Lukácsy & Gergely, 2005).

Egy-egy kulcsszóra emellett rendkívül sok találatot kaphatunk, és nem mindegy, hogy a keresők ezeket a találatokat milyen sorrendben mutatják meg. Közhely, hogy a keresőben megjelenő találatok között kitüntetett fontossága van az első néhány találatnak. A felhasználók elvárják a keresőktől, hogy a legfontosabb, a kulcsszóhoz és a témához legjobban illeszkedő, mi több, a saját igényeik szerinti találatokat az elsők közé rangsorolják – ennél fogva itt is keresik azokat. A szemkamerával végzett tekintetkövetéses (eye-tracking) vizsgálatok is ezt az igényt igazolják (lásd: 4. ábra, hotspot- vagy más néven: hőtérkép). A felhasználók jellemzően az első három-négy, maximum öt találatot nézik meg és olvassák el leginkább, a többi találatra kevesebb figyelmet fordítanak.13

4. ábra A Google találati oldala (eye-tracking vizsgálat, eyetools.com, 2006)

A Google megbízásából 2009-ben elvégzett tekintetkövetéses vizsgálat (Google, 2009) hasonló eredménnyel járt (lásd: 5. ábra, hotspot-kép). A vizsgálat megerősítette, hogy a felhasználók valóban az első találat14 elolvasásával és értelmezésével kezdik a találati eredmények megismerését, aztán folytatják a másodikkal, harmadikkal stb. Ha rövid időn belül nem találják a keresett információt, új keresést indítanak.

5. ábra A Google találati oldala (eye-tracking vizsgálat, Google, 2009)

2.4. A hagyományos keresőrendszerek működése

A hagyományos keresőrendszerek mindegyike ugyanazon általános séma szerint működik: az egyes oldalakat a keresőrobotok meglátogatják és összegyűjtik. A megtalált oldalakat egy indexelő elemzi, kigyűjti belőlük a releváns – azaz az indexelendő – kifejezéseket és a könyveknél megszokott tárgymutatóhoz hasonló listát készít belőlük.

Keresés során a felhasználó által feltett kérdést a rendszer elemzi, feldolgozza és a korábban beindexelt oldalak között elvégzi a keresést. Az eredmény weblapok halmaza, amelyek mindegyike kapcsolódik a feltett kérdéshez. A keresőrendszerek működésének talán leglényegesebb pontja, hogy ezeket a weblapokat milyen sorrendben mutatja a kereső a felhasználóknak. Így az ilyen rendszerek „lelke” az indexelésben és a találatok sorba rendezésében rejlik.

Ez a fajta precíz sorrendezés a találatok számának növekedésével vált kiemelkedő fontosságúvá. Az egyes keresők legalapvetőbb sorrendezési szempontjai közé tartoznak többek között a megtalált kifejezések helyének és előfordulási gyakoriságának a vizsgálata és a frissítési gyakoriság.

A keresőrendszerek között talán a Google a legnépszerűbb, ennek egyik egyértelmű oka, hogy a találatokat minőségileg jobban rangsorolja, mint a többi kereső.15 Az általánosan elterjedt módszerek mellett ugyanis egy speciális algoritmust is megvalósít, amely az egyes oldalakhoz a linkstruktúrát alapul véve rendel fontosságot (Google PageRank).

6. ábra: „I am Googlebot. I control earth”. (Ford, 2002)

A Google PageRank működése részben a bibliometria16 elvein alapszik. A bibliometria a tudományos publikációk világába vezet bennünket, ahol is egy adott kutató munkájának tudományos rangját és tekintélyét publikációinak idézettsége adja. A tudományos publikálás egyfajta rangsor-elven működik: egy adott mű hány más munkát idéz, később hány más mű idézi az adott írást, illetve, hogy az adott idézetek mennyire számítanak fontosnak. Ez a tudományos publikációk világában elterjedt szemlélet és rendszer a Google működésének egyik alapelve. Larry Page és Sergey Brin17 együtt alkották meg a Google rangsorolási elvét (algoritmusát), amely nemcsak azt tartja számon, hogy egy adott oldalról mennyi hivatkozás mutat más oldalakra, hanem azt is figyelembe veszi, hogy egy adott oldalra mennyi link mutat. Emellett a rendszer számon tartja az egyes hivatkozásokhoz tartozó hivatkozások számát is, vagy­is a hivatkozások alkotta gráfot (Battele, 2006).

A hagyományos keresőrendszerek többsége azonban olyan problémákkal küszködik, amelyek speciálisan az internet és a rajta lévő tartalmak sajátosságaiból adódnak: több milliárd oldal, sok terabyte-nyi rendezetlen adat és a gyorsan változó tartalom. Keresési problémát okozhatnak továbbá a dinamikus oldalak, az elgépelések és a háttérben lévő, nehezen elérhető adatbázisok is.

2.5. A tökéletes keresés ideája

Napjaink keresői a találatok relevanciáját olyan szempontok szerint igyekeznek felderíteni és rangsorolni, mint például a frissítési gyakoriság, az oldalra mutató és az oldalról kifelé mutató linkek száma, a keresőkérdés előfordulásának mennyisége és egyéb, titkosan kezelt szempontok. De vajon „tudják-e” a keresők, hogy az adott felhasználó számára mi lehet a leginkább releváns találat? Tudják-e, hogy az adott oldalakon található információ (még ha sok link mutat is rá és gyakran frissítik) igaz-e?A kereső által válaszként rangsorolt oldalak illeszkednek-e a felhasználó igényeihez? Ezek a kérdések a „tökéletes keresés” ideájához vezetnek bennünket.

A „tökéletes keresés” és a tökéletes kereső a szemantikus web elképzelés központi kérdése. John Battele: The Search (Keress!) című könyvében a következőképpen ír a tökéletes keresésről:

„Milyen lehet az? Képzeljük el, hogy bármit kérdezhetünk, és nemcsak hogy a pontos, hanem a számunkra legtökéletesebb választ kapjuk, olyan választ, ami beleillik a kérdés kontextusába és szándékába, olyan választ, aminek adója mintha titokzatos, sőt hátborzongató módon pontosan tudná, kik vagyunk és miért kérdezzük azt, amit” (Battele, 2006: 208).

A tökéletes kereső virtuálisan tartalmazza a világ összes, rendelkezésre álló és kereshető tudását, legyen az kép, szöveg, hang, videó stb. Különbséget tud tenni az egyszerűen megválaszolható adatkérdések és a kifinomultabb keresőkérdések között.

A keresést a számítástechnika legnagyobb kihívást jelentő és legérdekesebb problémái között szokták számon tartani. Sok szakértő véli úgy, hogy a „keresés misztériumának folyamatos kutatása” (Battele, 2006: 14), a folyamatos fejlesztések eredményeképpen egyszer megtalálják azt a „kereskedelmi és tudományos varázsigét”, amely lehetővé teszi, hogy olyan számítógépeket, keresőmotorokat hozzunk létre, amelyek képesek úgy viselkedni és gondolkodni, mint az emberek (Battele, 2006).

3. A szemantikus web elképzelés

A szemantikus web elgondolás Tim Berners-Lee-től származik. Tim Berners-Lee-t úgy szokták emlegetni, mint aki az egész World Wide Web és a hozzá kapcsolódó technológiák atyja. „Adatok hálózata, globális adatbázis” ír egy 1998-as írásában a szemantikus web víziójáról Tim Berners-Lee. Semantic Web Road című map írásában (Berners-Lee, 1998) olyan viszonylag egyszerű és univerzális megoldást ajánlott a metaadatok strukturálására, amely a webet intelligensebbé, a keresést pedig egyszerűbbé teheti. Elképzelése szerint a szemantikus weben a weboldalak olyan kódokat tartalmaznának, amelyek a gépeket segítenék abban, hogy azok az egyes oldalak tartalmát megértsék (Battele, 2006).

Paul Ford, a szemantikus web egyik szellemi vezére egy dolgozatában Tim Berners-Lee gondolatait az akkori Google-lal kapcsolta össze, ahol többek között ez olvasható:

„Mi a szemantikus web? Lényegében csak egy módszer, amellyel a dolgokat úgy lehet leírni, hogy azt a számítógép is »megértse«. A folyamat alapja természetesen nem az értelem, hanem a logika, ahogy a középiskolában is tanultuk…” (Ford, 2002). 18

Hermann Iván, a szemantikus webről szóló írásában hangsúlyozza, hogy a „szemantikus web” elnevezés, sajnos, félreértésekre is vezetett, ezért fontos megjegyezni, hogy ez nem egy új web, amely a régit „elavulttá” tenné, hanem inkább a jelenlegi web kiterjesztése” (Hermann, 2006).

Hermann Iván ugyanott kiemeli, akkor várhatjuk a programoktól, hogy azok képesek legyenek intelligens alkalmazások elvégzésére, ha precíz információt biztosítunk számukra a rendelkezésre álló adatokról, az adatok közötti összefüggésekről, azok nyelvéről stb.:

„…a weben lévő adatok között kapcsolatokat kell létrehozni, definiálni. Itt az »adat« lehet egyszerűen a weben lévő fájl (például egy online címlista), elérhető adat (például egy adatbázisban lévő rekord elérése valamilyen alkalmazási felületen keresztül) vagy metaadat, vagyis adat az adatról (például egy könyvtári katalóguscédula elektronikus változata). A szemantikus web ezt a problematikát próbálja megoldani. Ha röviden akarjuk jellemezni, akkor azt mondhatjuk, hogy „a szemantikus web célja egy olyan infrastruktúra létrehozása, amely lehetővé teszi a weben lévő adatok integrálását, a közöttük levő kapcsolatok definiálását és jellemzését, illetve az adatok értelmezését” (Hermann, 2006).

Ács Péter a következőképpen ír a szemantikus webről: „A szemantikus web fogalma azt igyekszik megragadni, hogy miként lehet megőrizni vagy gazdagítani a digitalizált mintázatok relevanciáját annak érdekében, hogy a szignifikáció szempontjából is lényeges gépi feldolgozás megvalósítható legyen” (Ács, 2009: 95), és kiemeli, hogy a szemantikus web technológiája azt a célkitűzést jelenti, hogy a weboldalakon megjelenő szöveges tartalom tartalmazzon olyan meta-leírásokat is, amelyek lehetővé teszik a további gépi feldolgozást.

Egy javasolt nézőpont

A szemantikus web elképzelést javaslatom szerint úgy érdemes tárgyalni, hogy megvizsgáljuk a lehetséges szereplőit az elképzelt szemantikus „színtérnek”. Vagyis külön beszélünk a keresőről, külön a (felcímkézendő) dokumentumokról és külön az ágensről (felhasználóról vagy userről, aki az adott keresést végzi).

3.1. Intelligens böngésző

A hagyományos keresés legnagyobb problémája az, hogy a keresők nem a fellelhető dokumentumok és a keresőkérdés jelentésével foglalkoznak, hanem kizárólag annak szöveges alakjával (azaz karaktert hasonlítanak össze karakterrel, vagyis a szemantika teljes hiánya jellemző). A szemantika hiányából pedig több probléma is fakad. Az információ-visszakeresés túlzottan a nyelvi információkra hagyatkozik, így például egy bizonyos nyelvű keresésre csak az adott nyelven ad (többnyire szöveges) találatokat, miközben bizonyos esetekben egy-egy képi találat hasznosabb lehet, mint a szöveges. Emellett a képek által tárolt információkat sem képesek a keresők automatikusan kinyerni.

A szemantikus web első számú szereplője az intelligens böngésző, amely képes a tartalomorientált keresésre. Megvalósítja – legalább részben – a tökéletes keresést, nem ad irreleváns, hamis vagy időben rosszul illeszkedő találatokat. Segítsége felér egy könyvtáros vagy a különleges tudakozón (197) bejelentkező alkalmazott segítségével. Abban ugyanis senki sem kételkedik, hogy az emberi munkaerő képes arra, hogy összetett adatok között keresse meg az éppen szükséges információt (pl. melyik jogszabályból következik az, hogy 2009-ben is utazhatok a barna, keményfedeles személyi igazolványommal Németországba?), és hogy megkülönböztesse egymástól a releváns és a kevésbé releváns információkat. De egy kereső képes lehet ilyen „szellemi” teljesítményre? A jövő keresője nem olyan, mint amilyeneket manapság használunk. Larry Page a jövő keresőjét egy könyvtároshoz hasonlította, aki tökéletesen ismeri és átlátja az emberi tudást.

A szemantika irányába mutató keresőprogramok fejlesztése sokakat foglalkoztat. Gazdasági potenciálját igazolja az a tény is, hogy csak 2004 és 2006 között a különböző, internetes kereséssel foglalkozó vállalatok 350 millió dollárt fektettek be az ilyen vagy ehhez hasonló böngészők fejlesztésébe (Stross, 2008).

A következőkben néhány fejlesztést mutatok be röviden.

„Search Engines are like sharks: If they stop moving, they die.”19

3.1.1. Google

Mint minden kereső, a Google is szeretne szemantikailag erős lenni. A vállalat elgondolása szerint „a legjobb keresőmotor képes felismerni, hogy a felhasználó valójában mire szeretne rátalálni”.20 Ennek érdekében rendszeresen fejlesztenek és mutatnak be újabb és újabb mikro-alkalmazásokat, keresőrendszerüket nagyságrendileg hetente frissítik. Újdonságaikat a http://googleblog.blogspot.com/ címen teszik közzé.

Ezek a mikroalkalmazások többnyire kisebb (nem szemantikus jellegű) „apróságok”, amelyek – ha a felhasználó ismeri őket – nagyban segíthetik a keresés folyamatát. Ilyen például a képek szín és méret szerinti kereshetősége vagy a kereső ablak számológépként való működése.

Nemrégiben bemutatott, magyar nyelven is elérhető fejlesztésük a SearchWiki. A mikroalkalmazás segítségével saját keresési eredményeiket rendezhetik át a felhasználók a nekik tetsző sorrendbe: előbbre sorolhatják a számukra fontos találatokat, a feleslegeseket pedig törölhetik a találatok közül. Módosításaikat a rendszer automatikusan elmenti. Beállításaikat és véleményüket megoszthatják a többi felhasználóval. (A keresés ebben az esetben a keresés „társas navigáció” felhangot kap.) A szolgáltatás kizárólag akkor érhető el, ha a felhasználó bejelentkezett a Google fiókjába (pl. a Gmail levelező rendszerbe), és a változtatások csak a felhasználó saját keresési eredményeit befolyásolják.

Intelligens keresőmotort feltételez a vállalat „Google Brain”21 megoldásáról szóló videója, ahol a felhasználó kérdést ír a kereső ablakba, és ha elüt valamit, akkor a kereső visszakérdez, javít, aztán néhány kérdés után előáll a megfelelő válasszal. (A Google-ról bővebben lásd még: 2.4.-es fejezet).

3.1.2. WebFountain22

Hogyan tanulhatná meg a számítógép, hogy úgy működjön, mint egy tudományos szakkönyvtáros? A WebFountain a keresés probléma klasszikus, IBM-féle megoldása. Nem arra koncentrál, hogy napi több száz millió kulcsszóra válaszoljon, hanem összetett és specifikus kérdések megválaszolására készít megoldást. Elméletileg olyan keresőkérdéseket tehetnek fel a WebFountain meg nem nevezett ügyfelei, mint pl.: „Melyek azok a dokumentumok, amelyek legalább egy oldalnyi arab szöveget tartalmaznak, Közép-Keleten találhatók és legalább két hasonló dokumentummal vannak kapcsolatban, de nem kapcsolódnak a hivatalos Al Dzsazeera weboldalhoz, és nem tesznek bennük említést terroristagyanús emberekről?” Vagy: „Mit mondanak a San Franciscó-i öböl környéki egyetemisták a benzin áráról?”, esetleg: „Milyen zenei stílust kedvelnek és mennyire népszerűek körükben az egyes zenészek?”

A WebFountain azért képes választ adni az ilyen összetett és specifikus kérdésekre, mert nemcsak indexeli a webet, hanem a kulcsszó-egyezésen alapuló eredményeket egy okos algoritmus segítségével fel is dolgozza. Crawlere alaposan letapogatja az oldalakat és számos szemantikai kategóriába sorolja azokat, emellett az oldalon található entitásokat címkézni tudja, valamint a köztük fennálló kapcsolatot is. A WebFountain számítógép-alkalmazása – elmondásuk szerint – kevesebb, mint 24 óra alatt a teljes webet feltérképezheti és újracímkézheti. Összehasonlításképpen: elosztott számítástechnikai felépítése miatt a Google egész indexének frissítése majdnem egy hónapig tart (bár egyes részeit sokkal gyakrabban frissítik).

3.1.3. GlobalSpec

A GlobalSpec az 1990-es évek közepén indult, mégpedig online katalógusként: az oldal a műszaki cikkekkel kapcsolatos katalógus alapú információkat töltötte fel egy hatalmas adatbázisba, amit aztán online formában elérhetővé is tett. Az évek folyamán a GlobalSpec hatalmas közösséggé nőtte ki magát, de nem tudott minden, a mérnöki közösségből érkező kérdésre válaszolni. Ekkor a GlobalSpec vezetői kifejlesztették az „Engineering Web” elnevezésű fókuszált keresési terméket. Mintegy 100 ezer olyan oldalt indexált a keresőjük, amely a megítélésük szerint a mérnöki tudományok körébe tartozó releváns információt tartalmazott. Ekkor nemcsak a nyilvános weboldalakat, hanem olyan különböző adatbázisokat is feltérképeztek, amelyek a főbb nyilvános keresőprogramok számára nem kereshetők (pl. felhasználói jogok, szabadalmi oldalak).

A GlobalSpec jelentős mértékben tárgykör-specifikus, azonban a web „kigyomlálásával” jobb eredményeket ad, így utat mutat az erős vertikális keresőprogramok nagy tömegének megteremtése felé.

3.1.4. A tökéletes kereséshez vezető lehetséges út: metakeresők

Képzeljük el, hogy szinte minden témának a világon lesz GlobalSpec jellegű vertikális keresője. Képzeljük el azt is, hogy ezen keresők mindegyikén a Google vagy a Yahoo végigküldi crawlerjét, és mint valamiféle metakereső, több száz vagy ezer tárgykör-specifikus oldal találatai között keres. Találatai már tartalmazzák a mély webnek tartott adatbázisok adatait is, hiszen a tárgykör-specifikus keresők a téma szempontjából legfontosabb adatbázisokban is képesek tájékozódni. A tökéletes kereséshez Battele szerint talán úgy juthatunk közelebb, hogy ha több ezer kisebb, a saját tárgykörét tökéletesen feldolgozó kereső eredményeit koncentráljuk.

3.2. Dokumentumok, adatbázisok

3.2.1. Nyitott adatbázis:23 elárulják a keresőnek az adatbázis szemantikáját24

A szemantikus webről mint „értő webről” is szokás beszélni, ebben az esetben a hangsúly azon a célon/elképzelésen van, hogy a gépeket – beleértve a keresőrendszereket is – megtanítjuk „gondolkodni”. A morfológiai–szintaktikai–szemantikai nyelvtechnológiai hármasság (szintek) közül a számítógépeket egyelőre az első, a morfológiai szintre tudtuk „éppen hogy” megtanítani. Karaktereket képesek ugyan összehasonlítani karakterekkel, el tudják dönteni a szavakról, hogy azok toldalékoltak-e vagy sem, de nem tudják eldönteni, hogy egy adott kifejezés (pl. „a cipő szomjas”25) helyes-e. Ahhoz ugyanis, hogy az összetett mondatokat is kezelni tudják a gépek, megértsék, és elemezni tudják azokat, évtizednyi időre lesz szükség. Ez után következhet majd, hogy a gépeket szemantikára tanítsuk pl. annak érdekében, hogy el tudják dönteni egy mondatról, hogy az értelmes vagy értelmetlen.

Ehhez azonban az is lényeges lenne, hogy a keresőprogramok „értsék” a weben lévő adatbázisokat és hozzá tudjanak férni az azokban tárolt adatokhoz. A keresés témakörével foglalkozó szakemberek szerint a keresés kérdése tíz százalék alatti (kb. ötszázaléknyi) mértékben megoldott. Szakadát István szerint több tíz évnyire vagyunk attól, hogy a keresőrendszerek ne torpanjanak meg, ha a weben egy-egy adatbázissal találkoznak. A weben a legtöbb információt strukturáltan adatbázisokban tároljuk (mély web). Mindaddig, amíg az adatbázisok belső struktúráját nem ismerik és értik a keresőrendszerek, addig a bennük lévő tartalmat sem tudják találatként megjeleníteni. A mély web feltárásához arra lenne szükség, hogy az adatbázisok belső logikáját nyissák meg a keresőrendszerek felé, hogy azok az adatbázisokból is képesek legyenek találatokat felmutatni.

3.2.2. Metaadatokkal felcímkézni a dokumentumokat26

A szemantikus világháló elgondolás két alapötleten nyugszik: egyrészt a metaadatok erőforrásokhoz való kapcsolásán, másrészt azon az elgondoláson, hogy ezen metaadatok segítségével következtetni is kell tudni az adott dokumentum tartalmára.

Amióta dokumentumokat hozunk létre, természetes igény azok tárolása, valamint az az igény is, hogy az archívumunkban tárolt dokumentumok között keresni tudjunk és a szükséges dokumentumot meg is tudjuk találni. Ennek érdekében a dokumentumokhoz kiegészítő információkat, metaadatokat kell rendelnünk. Ennél fogva a dokumentum, a metaadat és a keresés fogalmai elválaszthatatlanok egymástól (Szakadát, 2007: 114-115).

A weben megtalálható információk jelentéssel való felruházásának egyik lehetséges módja a metainformációk társítása. A webnek eddig is részei voltak a metainformációk: a META nevű HTML-elem kifejezetten a metainformációk megadására szolgál. A metaadatok használata általános eszköz arra, hogy a különböző erőforrásokhoz jelentést társítsunk. Ha egy-egy erőforrás jellemzőit meg tudnánk adni úgy, hogy az a gépek (keresők) számára feltérképezhető legyen, óriási lépést tehetnénk az intelligensebb kereshetőség felé. Ehhez arra lenne szükség, hogy ezeket a metaadatokat egységesen szolgáltassák magukról a dokumentumok, adatbázisok.

A webes tartalom jelentéssel való feltöltésével az XML nyelv lehet a felhasználók segítségére, amely a World Wide Web Konzorcium (W3C) ajánlása is egyben. A weboldalakon leggyakrabban használt nyelv, a HTML is leírható XML-ben, az így létrejövő XML alkalmazás az XHTML-nyelv, melyet sokan a HTML nyelv 5-ös verziójának tekintenek. (A neten jelenleg megtalálható oldalak jellemzően a sok hibát megengedő és korrigálni tudó HTML 4-es verziójával íródtak.)

A szemantikus világháló elmélet azt célozza meg, hogy az átvitt, tárolt információ a felek számára egyértelmű legyen, és amennyiben ez megvalósul, akkor a keresőrobot is érteni fogja bizonyos internetes erőforrások tartalmát. Ezzel együtt az információt a gépek számára feldolgozható és érthető formában kell tárolni.

Ez utóbbira az RDF-elképzelés szolgálhat. Az RDF nyelv (Recource Description Framework – Erőforrás-leíró Keretrendszer) segítségével ugyanis tetszőleges webes tartalomhoz társíthatunk szabványos módon metainformációt, azaz jelentést. (Az RDF nyelv használata a szabványos és javasolt mód a metainformációk leírására.)

Az RDF nyelv képes arra, hogy tetszőleges erőforráshoz metaadatokat kapcsoljon. Erőforrás pedig bármi lehet, aminek van Általános Erőforrás-azonosítója (Universal Resource Identifier), azaz URI-ja. Ezeknek az erőforrásoknak a szemantikus web elképzelésben alapvető szerepük van, mert egyértelműen azonosíthatnak erőforrásokat, emellett lehetővé teszik, hogy a weben található információkhoz metaadatokat társíthassunk. Az RDF által leírt metainformációkat az internetes keresőrendszerek használhatják fel az intelligensebb és emberközpontúbb keresés érdekében. A metaadatok, illetve a fájlok pontos leírása azonban még nem elegendő ahhoz, hogy az internetes keresés során a rendszerek következtetni is tudjanak (pl. valaki barátait az „ismerős” szóra való kereséskor is megtalálja). Ehhez további specifikációk szükségesek, ugyancsak az RDF-sémán belül.

Az RDF-leírásokkal kapcsolatban is megjelenhetnek azok az aggodalmak, miszerint senki sem garantálja, hogy az egyes oldalak tulajdonosai minden esetben hiteles információt adnak magukról és hogy nem „hazudnak” annak érdekében, hogy a keresőknek előkelőbb helyen szerepeljenek. Azonban a web fejlődési iránya éppen az ilyen megbízhatatlan és a megbízható tartalmak elkülönítésében is rejlik, ezt szolgálják a különböző, nehezen manipulálható technikák, mint pl. a Google PageRank szolgáltatása.

Az RDF-források felhasználására példa az Open Directory Project (ODP), egy nyitott, szakmai és egyéb linkeket tartalmazó, rendszeresen karbantartott, nem üzleti webes katalógus az RSS (RDF Site Summary), vagy például a Princeton Egyetem által fejleszett, online elérhető szótár, a WordNet. A WordNet27 (7. ábra) több százezer kifejezést tartalmaz és speciális abban az értelemben, hogy a szavak között bizonyos relációkat is le tud írni.

7. ábra A WordNet kereső találati oldala

3.3. User, aki megtanul (hatékonyan) keresni

Az elképzelt szemantikus színtér része egyben annak elképzelt felhasználója – user vagy ágens – is, aki használja is és „építi” is a hálót, segíti a keresés és a kereső tökéletesítését. Aki adja a tudását, többedmagával rendszeresen frissülő online enciklopédiát hoz létre, dokumentumokat címkéz fel pontos és releváns metaadatokkal, vagy – akár anélkül, hogy tisztában lenne vele – nyomokat hagy maga után. Ha kíváncsi valamire, feltételezi, hogy a keresett információ valahol, valamilyen formában megtalálható a weben, így nekiáll és megkeresi.

Keresés közben többféle navigációs és keresési stratégiával is élhet: különbséget szoktak tenni a searching és a browsing között. Keres valamit a felhasználó, a keresett kifejezést beírja a keresőprogramba, az pedig valahogyan válaszolni fog rá – ez a searching. Szeretné megtudni egy idegen szó pontos jelentését magyarul, beírja a szótárprogramba, és várhatóan egy kattintás múlva a keresett kifejezést látni fogja a saját nyelvén – ez is searching. Ha nem tudja a pontos kereső kifejezést, de tudja, hogy nagyjából mire kíváncsi, igénybe veheti pl. a tematikus linkgyűjtemények segítségét – ez a browsing. Megnéz egy kifejezést a nyomtatott szótárban vagy az enciklopédiában, és még körülnézeget egy kicsit – ekkor is „browsol”, csak offline.

Ezektől különbözik a harmadikféle navigáció-típus, az egyszerű befogadás. Legismertebb példája a tv-nézés, amikor a felhasználó dolga nem több, minthogy beállítson egy programot a készüléken, üljön előtte és nézze. A keresés két fentebb jelzett módja (searchin–browsing) aktivitást vár a felhasználótól (míg a tv-nézés kevésbé).

A sikeres kereséshez elengedhetetlen, hogy a felhasználó ismerje a lehetőségeit online: tudja, hogy milyen kulcsszavakat érdemes beírnia, és mit kell tennie, ha olyan weboldallal találkozik, ahol adatbázis típusú információt kell lekérnie.

A különböző felhasználók különbözőképpen lehetnek keresőtudatosak. Vannak, akik gyorsabban találják meg a keresett oldalt vagy a szükséges információt, és vannak olyanok is, akik nagyon nehezen boldogulnak, amikor online formában szeretnének információhoz jutni. A felhasználó sikerének alapja, hogy ismerje jól a keresőt, amit használ, bizonyos szinten értse annak működését, és alap szinten ismerje a kereső belső logikáját. Tudja, hogyan érdemes rákeresni az egyes kifejezésekre, hogyan érdemes a pontosabb találat érdekében több kifejezést egymás mellé írnia stb. (Ugyanez érvényes vice versa: a sikeres keresők ismerik a felhasználók keresési szokásait, pl. a keresési adatok és hibák alapján felajánlják a hibásan beütött keresőszavak javítását stb.).

A navigációs stratégiák között ki szokták még emelni a társas navigációt (social navigation) is, amelynek lényege, hogy a felhasználók egymás ajánlásait követik a keresés és a navigáció során. Ezek legtermészetesebb módja, amikor két felhasználó interakciót folytat, és az egyikük információt – tanácsot – kér a másiktól. Példája a tematikus linkgyűjtemények létrehozása is, amelyek egyik fontos sajátossága, hogy a létrehozó alapvetően nem anyagi érdekből készíti el a linkgyűjteményt. Célja a többi felhasználó segítése, esetleg saját szakértelmének bizonyítása, igazolása. A szemantika hiányára első körben többek között az ilyen, emberek által összeállított és válogatott katalógusok nyújthatnak megoldást (Open Directory Project, Startlap oldalak stb.), illetve a forgalmi információk figyelésén alapuló módszerek. (A forgalmi információk követésének – milyen zenéket szeret a felhasználó a YouTube-on hallgatni, milyen oldalakat néz gyakrabban – nem a szemantika az alapja, hanem a forgalmi adatok.) Valószínűsíthetően a web fejlődésének útja nem (kizárólag) a szemantika, hanem inkább a társas navigáció intézménye (is) lesz.

Másfajta kezdeményezés a „collaborating filtering”, amikor is a felhasználókat – forgalmi adatok és statisztikai paraméterek alapján – ízléscsoportokba sorolják (pl. az Amazon.com-on vagy a legújabb hazai próbálkozásként a Bookline.hu-n). Az előbbi szofisztikáltabb megoldás, az utóbbira kíváncsian tekintünk.

Összefoglalás

Írásomban röviden áttekintettem a web 1.0 és a web 2.0 történetét, összehasonlításuk alapját. Írtam a web 3.0 egyik lehetséges aspektusáról, a szemantikus webről, azon belül a keresés alapproblémáiról, bemutattam, hogy mi alapján határolják el egymástól a sekély webet, szürke webet és a mély webet. Vázoltam a hagyományos keresőrendszerek működését és írtam a tökéletes keresés ideájáról. Ezután bemutattam a szemantikus web elképzelést, és egyenként írtam az elképzelt lehetséges szemantikus színtér résztvevőiről: az intelligens böngészőről, a kereshető dokumentumokról és adatbázisokról, valamint a userről – aki ismeri lehetőségeit, a kereső belső logikáját és ennek köszönhetően képes is keresni a kereshető dokumentumok között. A szemantikus webről beszélve érdemes ezen szereplők mindegyikére egyforma hangsúllyal tekinteni. Lezárva az előbbi gondolatokat, röviden bemutattam néhány módszert, amelyek a szemantika hiányára nyújthatnak első körben ideális megoldást.

A Tim Berners-Lee által megálmodott szemantikus web elképzelés sokak szerint megvalósíthatatlan és mindig is álom marad, hiszen felbecsülhetetlen mindaz a fejlesztés, amit annak érdekében kellene tenni, hogy a keresők képesek legyenek „megérteni” a begépelt kérdést vagy keresőszót. Azonban – visszatérve az írás elején szereplő idézetre – éppen az ilyen, megvalósíthatatlannak tűnő álmok és elképzelések változtathatják meg a világot, és ahogy láthattuk: a szemantikus web elképzelés már most is sokakra hat ösztönzőleg. Számos fejlesztés, program, mikroalkalmazás és komoly, nagy ívű fejlesztés köszönhető Berners-Lee elképzelésének, és az ilyen fejlesztők és fejlesztéseik vihetnek bennünket közelebb a tökéletes keresés ideájának valósággá válásához.

Köszönetnyilvánítás

Köszönettel tartozom Szakadát Istvánnak, aki értékes gondolataival segítette a téma további kifejtését, valamint Horányi Özsébnek és Síklaki István témavezetőmnek, illetve a Kommunikációtudományi Doktori Iskola hallgatóinak, hogy észrevételeikkel és hozzászólásaikkal segítették a terület szélesebb körű feltérképezését.

Irodalom

Ács Péter (2009): A web mögött. Médiakutató, nyár.

Battele, John (2005): The Search: how Google and its rival rewrote the rules of business and transformed our culture. New York : Portfolio.

Kallinikos, Jannis (2006): The consequences of information: institutional implications of technological change. Northampton: Edward Elgar Publishing.

O'Reilly, Tim & Battele, John (2009): Web Squared: Web 2.0 Five Years On. Special Report. H.n.: O'Reilly - Techweb.

Stross, Randall (2008): Planet Google. New York: Free Press.

Szakadát István (2007): Egyben az egész, egytől egyig. Budapest: Typotex.

Szeredi Péter & Lukácsy Gergely (2005): A szemantikus világháló elmélete és gyakorlata. Budapest: Typotex.

Online források

Bergman, Michael K. (2001): White Paper, The Deep Web: Surfacing Hidden Value. University of Michigan, University Library. http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 (utolsó letöltés: 2009. augusztus 1.).

Berners-Lee, Tim: Semantic Web Road map, 1998. http://www.w3.org/DesignIssues/Semantic.html (utolsó letöltés: 2009. augusztus 1.).

Brin, Sergey – Page, Larry: The Anatomy of a Large-Scale Hypertextual Web Search Engine http://infolab.stanford.edu/~backrub/google.html (utolsó letöltés: 2009. augusztus 1.).

Csordás Attila:A feltölthető világ - Web 2.0. Magyar Narancs XVII. évf. 46. szám - 2005-11-17. http://www.mancs.hu/index.php?gcPage=/public/hirek/hir.php&id=12407 (utolsó letöltés: 2009. december 30.).

EyeTools (2005): Eyetools Google Search. http://eyetools.com/blog/images/google/eyetools_google_search.jpg; http://blog.eyetools.net/eyetools_research/2005/03/eyetracking_goo.html (utolsó letöltés: 2009. július 31.).

Ford, Paul (2002): How Google beat Amazon and Ebay to the Semantic Web. http://www.ftrain.com/google_takes_all.html (utolsó letöltés: 2009. július 31.).

Google (2009): Eye-tracking studies: more than meets the eye. http://googleblog.blogspot.com/2009/02/eye-tracking-studies-more-than-meets.html (utolsó letöltés: 2009. július 31.).

A Google SearchWiki már magyarul is elérhető (2009), sg.hu. Sz.n. http://www.sg.hu/cikkek/67116/a_google_searchwiki_mar_magyarul_is_elerheto (utolsó letöltés: 2009. július 31.).

Google, Adatvédelmi központ > Adatvédelmi irányelvek (2009) http://www.google.com/intl/hu/privacypolicy.html (utolsó letöltés: 2009. december 30.).

Google, Official Google Blog (2008): Another step to protect user privacy, http://googleblog.blogspot.com/2008/09/another-step-to-protect-user-privacy.html (utolsó letöltés: 2009. december 30.).

Hantos Gyöngyi (2009): Á propos web 3.0. http://blog.ladyuser.eu/ (utolsó letöltés: 2009. augusztus 1.).

Herman Iván (2006): Szemantikus Web: egy rövid bevezetés. Budapest: W3CŽ. http://www.w3.org/2006/Talks/0318-Budapest-IH/cikk.html#sdfootnote1sym (utolsó letöltés: 2009. augusztus 1.).

MG Siegler (2009): It's Google On Red Bull, Or Something http://www.techcrunch.com/2009/08/10/caffeine-its-google-on-red-bull-or-something/ (utolsó letöltés: 2009. december 30.).

O'Reilly, Tim (2005): What Is Web 2.0. Design Patterns and Business Models for the Next Generation of Software http://oreilly.com/web2/archive/what-is-web-20.html (utolsó letöltés: 2009. augusztus 1.).

Mari Vállez, Mari-Carmen Marcos. Libraries in a Web 2.0 environment (2009) „Hipertext.net”, num. 7, 2009. http://www.hipertext.net/english/pag1037.htm (utolsó letöltés: 2009. december 30.).

Wormell, I. (1999): Online searching is like gold-washing. Az online keresés olyan, mint az aranymosás. In: 1999, BME. 46. évfolyam (1999) 6. szám. http://tmt.omikk.bme.hu/print.html?id=1808&issue_id=12 (utolsó letöltés: 2009. augusztus 1.).

Lábjegyzetek

1
A következő írás 2009 derekán készült, mivel azonban az online világban már fél év is jelentős időnek számíthat, a szerző a kész anyagot 2009 végén – 2010 elején néhány gondolattal kiegészítette.
2
„A netnek ezt a megváltozott, kollektív tudásmegosztáson és tartalomgeneráláson alapuló architektúráját két amerikai fickó, Dale Dougherty és Craig Line nevezte el web 2.0-nak. Tavaly (2004-ben, a szerz.) San Franciscóban rendezték meg első konferenciájukat, idén októberben a másodikat. A koncepció fő ideológusa a ténylegesen használható számítógépes kézikönyvek kiadásával hírnevet szerzett kaliforniai Tim O'Reilly, a szabad szoftver és open source mozgalmára” (Csordás, 2005).?„The term Web 2.0 was coined by Dale Dougherty (O'Reilly Media) and Craig Cline (MediaLive) in 2004 when they performed a study on the web and confirmed that after the downfall of the dot.com companies, those that survived offered new services based on applications that created dynamic pages and interaction with the user”?(Vállez & Marcos, 2009).„The term Web 2.0 was coined by Dale Dougherty (O'Reilly Media) and Craig Cline (MediaLive) in 2004 when they performed a study on the web and confirmed that after the downfall of the dot.com companies, those that survived offered new services based on applications that created dynamic pages and interaction with the user”?(Vállez & Marcos, 2009).(Vállez & Marcos, 2009).
3
Pl.: http://blog.tquadrado.com/?p=36
4
V.ö.: pl. Tim Bray - Not 2.0? http://radar.oreilly.com/archives/2005/08/not-20.html
5
http://online.blogter.hu/7585/mi_a_kulonbseg_a_web_10_es_a_web_20_kozott
6
A szemantikus web elképzelés korábban létezett, mint az, amit később web 2.0-nek neveztek el.
7
Battele, 2006:A könyvben a tanulmány forrására nincs pontos hivatkozás.
8
Pingdom: How we got from 1 to 162 million websites on the internet. ?http://royal.pingdom.com/2008/04/04/how-we-got-from-1-to-162-million-websites-on-the-internet/?http://royal.pingdom.com/2008/04/04/how-we-got-from-1-to-162-million-websites-on-the-internet/?Notes on the numbers: The definition of what counts as a website varies, but the numbers here are hostnames connected to sites that respond. The numbers from Netcraft (August 1995 and onward) include parked pages as well, so it is larger than the number of “active” websites.
9
About.com. http://womeninbusiness.about.com/b/2009/02/08/demographics-show-number-of-websites-in-billions-why-good-seo-is-so-imporant.htm
10
… vagy vicces formában párhuzamba állítani. Lásd a 2009 őszén terjedő linket – http://www.insideyoursearch.com/ –, amely egy olyan weboldalra vezet, ahol azt láthatjuk, hogyan is működik „valójában” (SIC!) a Google. Az oldalt megnyitva könyvtárra emlékeztető belső teret és egy kardigános könyvtáros nőt láthatunk, aki a keresett kifejezéssel kapcsolatos információkat könyvekből keresi ki, közben listát készít belőlük. A keresés eredménye természetesen a Google találati listája.
11
Igaz: az online világban sem mindegy, hogy hol (milyen színtéren) teszi ezt.
12
Szakadát Isván szóbeli közlése alapján.
13
Az így megjelenő formát „arany háromszög”-nek is szokás nevezni, mivel a „forró pontok” háromszöget formálnak.
14
A 2-es ábrán látható Google találati oldalon csak természetes, „organikus” találatok láthatóak, hirdetések nem.
15
És személyre szabottabban is. Ehhez azonban a felhasználónak el kell fogadnia, hogy a találatok pontosítása érdekében a Google 18 (!) hónapig tárolja és feldolgozza bizonyos személyes adatait, pl. egy vagy több cookie-t – azaz egy-egy karaktersorozatot tartalmazó kis fájlt – küld a számítógépére, amely(ek) révén böngészője egyedileg azonosítható lesz. A felhasználónak többek között el kell fogadnia azt a tényt is, hogy a Google szolgáltatásainak elérése során a vállalat szerverei rögzítik az IP-címét, a böngészője típusát és annak nyelvét, a webes kérését és annak időpontját, valamint a böngészőjének egyedi azonosítását lehetővé tévő egy vagy több cookie-t. ?A vállalat célja a személyes adatok feldolgozásával elmondása szerint pl. „Szolgáltatásainknak a felhasználók részére történő biztosítása, ideértve a személyre szabott tartalom és a hirdetések megjelenítését is”, „A szolgáltatásaink fenntartása, védelme és tökéletesítése érdekében végzett ellenőrzés, kutatás és elemzés”, „Új szolgáltatások kifejlesztése”.?Az adatvédelmi irányelvek leírásánál a vállalat hozzáteszi: „A személyes adatoknak a szolgáltatásaink számára történő beküldése megtagadható. Ekkor azonban előfordulhat, hogy a Google nem fogja tudni biztosítani ezeket a szolgáltatásokat.”?Google, Adatvédelmi központ > Adatvédelmi irányelvek,A vállalat célja a személyes adatok feldolgozásával elmondása szerint pl. „Szolgáltatásainknak a felhasználók részére történő biztosítása, ideértve a személyre szabott tartalom és a hirdetések megjelenítését is”, „A szolgáltatásaink fenntartása, védelme és tökéletesítése érdekében végzett ellenőrzés, kutatás és elemzés”, „Új szolgáltatások kifejlesztése”.?Az adatvédelmi irányelvek leírásánál a vállalat hozzáteszi: „A személyes adatoknak a szolgáltatásaink számára történő beküldése megtagadható. Ekkor azonban előfordulhat, hogy a Google nem fogja tudni biztosítani ezeket a szolgáltatásokat.”?Google, Adatvédelmi központ > Adatvédelmi irányelvek,Az adatvédelmi irányelvek leírásánál a vállalat hozzáteszi: „A személyes adatoknak a szolgáltatásaink számára történő beküldése megtagadható. Ekkor azonban előfordulhat, hogy a Google nem fogja tudni biztosítani ezeket a szolgáltatásokat.”?Google, Adatvédelmi központ > Adatvédelmi irányelvek,Google, Adatvédelmi központ > Adatvédelmi irányelvek, http://www.google.com/intl/hu/privacypolicy.html?Google, hivatalos blog: Another step to protect user privacy, http://googleblog.blogspot.com/2008/09/another-step-to-protect-user-privacy.html
16
Bibliometria: hagyományosan a dokumentációs anyagok kvantitatív mérésével foglalkozó tudomány. A bibliometria által mért hivatkozási analízis leginkább használatos származtatott mértéke a folyóiratok impakt faktora. A bibliometria tudományos diszciplína, részterületei közé tartoznak az informetria, a szcientometria, valamint a technometria; ezek nem teljesen tiszta fogalmak, a terminológiában némi zavar tapasztalható (Wormell, 1999).?Bibliometria: „az írott dokumentumok és idézetstruktúrájuk tudománya” (Battele, 2006: 65).Bibliometria: „az írott dokumentumok és idézetstruktúrájuk tudománya” (Battele, 2006: 65).
17
A témában – a Google működéséről – írt közös tanulmányuk: The Anatomy of a Large-Scale Hypertextual Web Search Engine manapság a legtöbbször idézett, internetes kereséssel foglalkozó tanulmány a világon (Battele, 2006).
18
A cikkben Ford annak a forgatókönyvét is felvázolja, ahogyan a GoogleBot, a Google indexelő programja ellenőrzése alá vonhatja az egész világot. (Lásd: 6. ábra)
19
„A böngészők olyanok, mint a cápák. Ha nem mozognak/fejlődnek, meghalnak.”?MG Siegler: It's Google On Red Bull, Or Something. ?http://www.techcrunch.com/2009/08/10/caffeine-its-google-on-red-bull-or-something/MG Siegler: It's Google On Red Bull, Or Something. ?http://www.techcrunch.com/2009/08/10/caffeine-its-google-on-red-bull-or-something/http://www.techcrunch.com/2009/08/10/caffeine-its-google-on-red-bull-or-something/
20
Peresztegi Zoltán, a Google magyarországi üzletfejlesztési vezetője. http://www.sg.hu/cikkek/67116/a_google_searchwiki_mar_magyarul_is_elerheto (Utolsó letöltés: 2009. július 31.).
21
http://googlesystem.blogspot.com/2006/03/google-brain.html
22
A WebFountain és a GlobalSpec fejlesztéseket, valamint a metakereső-elképzelést részben John Battele írása (Battele, 2006) alapján mutatom be.
23
Az adatbázisok és a morfológiai–szintaktikai–szemantikai hármasság témával kapcsolatos fontosságára Szakadát István hívta fel a figyelmemet.
24
Szemantika: „A szemantika valójában a jelentés tanulmányozása, de attól függően, hogy pontosan milyen jelrendszerekről beszélünk, és milyenek a szemantikánk által követendő módszerek, többféle tárgy kutatásán keresztül valósulhat meg a szemantikai kutatás. (…)A szemantika az a tudomány, amely – hozzávetőleg – a nyelvi kifejezések és azon tárgyak (vagy ‘tényállások') közti bizonyos relációkkal foglalkozik, amelyekre ezek a kifejezések »vonatkoznak«” Kommunikációtudományi Nyitott Enciklopédia, Pete Krisztián: Szemantika szócikk. http://ktnye.akti.hu/index.php/Szemantika
25
A „cipő szomjas” példa Szakadát Istvántól származik.
26
A 3.2.2 fejezetet megírásakor Szeredi Péter & Lukácsy Gergely (2005):A szemantikus világháló elmélete és gyakorlata c. könyvben olvasható információkra támaszkodtam.
27
A WordNet Search - 3.0: http://wordnet.princeton.edu/perl/webwn
Médiakutató podcast
Támogass adód 1%-ával

A Médiakutató Alapítvány fő tevékenységeként immár 24. éve adja ki a Médiakutató folyóiratot. A lap rendszeresen közöl szaktanulmányokat a médiajog, a médiapolitika, a médiaszociológia és a médiatörténet területéről, számos tanulmánya tananyaggá vált a felsőfokú kommunikáció- és médiaképzésben. Minden nyomtatásban megjelent tanulmány elérhető honlapunkon (www.mediakutato.hu) is. A szerkesztőség díjazás nélkül, társadalmi munkában dolgozik. Amennyiben fontosnak tartod a Médiakutató fennmaradását, kérjük, támogasd munkánkat! A szerkesztőség

Adószámunk: 18687941-2-43

Legolvasottabb
Támogass minket
A Médiakutatót önkéntes kutatók és szerkesztők készítik. Ha hasznosnak találod a működésünket, kérlek, támogasd a lap elkészítését!
Pódiumbeszélgetések

„Szomszédok közt” pódiumbeszélgetés

Kérdez: Bajomi-Lázár Péter Médiakutató
Válaszol: Kovács M. András és Lányi Balázs forgatókönyvíró

> korábbi pódiumbeszélgetések

Partnereink
Facebook