Odnaleźć e-igłę w stogu e-siana

Autor: Paweł Wróblewski | 4 lipca, 2010

Jesteśmy zasypywani gradem informacji, a potrzebujemy tylko tej jednej

Według Massachusetts Institute of Technology (MIT) Real-Time Search to jedna z 10 technologii, które mają przed sobą świetlaną przyszłość. Nic dziwnego. Wszak nie ma sensu gromadzenie gigabajtów danych w różnorodnej formie, jeżeli nie można znaleźć na czas tego, co jest właśnie potrzebne!
Zupełnie niedawno MIT opublikował serię artykułów na temat owych 10 technologii, które mają przed sobą najbardziej obiecującą przyszłość. Jak zwykle w tego typu zestawieniach więcej jest fiction niż science, jednak moją uwagę zwróciło wymienienie w tym ekskluzywnym gronie czegoś, co nazywa się Real-Time Search, czyli wyszukiwanie danych w czasie rzeczywistym. Potraktuję to zatem jako pretekst do bliższego przyjrzenia się temu, co tak naprawdę kryje się za tą nazwą, oraz do przybliżenia najnowszych trendów w dziedzinie wyszukiwania informacji.

INFORMACYJNE GRADOBICIE

Opisywane przez MIT wyszukiwanie w czasie rzeczywistym odnosi się do rodzącej się technologii, która stara się odpowiedzieć na coraz silniejszą potrzebę analizowania najświeższych informacji pojawiających się w różnego rodzaju serwisach społecznościowych. W skrócie chodzi o to, by zwłaszcza młodzi ludzie, którzy bez internetu i jego dobrodziejstw nie wyobrażają sobie życia, mieli możliwość śledzenia na bieżąco tego, co robią, myślą, czują ich mniej lub bardziej wirtualni przyjaciele. Problem polega na tym, że zasypywani jesteśmy gradem informacji: kanały RSS wypluwają krocie wiadomości, mikroblogi (Twitter, Blip) pękają od wpisów, Nasza Klasa ciągle wprowadza nowości i bombarduje użytkowników e-mailami, że już dwa dni nie odwiedzali serwisu, na LinkedIn czy Golden Line widać, kto i kiedy zmienił pracę, a jest tego wszystkiego coraz więcej. Potrzeba zatem silnego narzędzia, które będzie w stanie nad tym zapanować. Nic w tej materii nie liczy się bardziej niż świeżość pozyskiwanych i wyszukiwanych informacji, nie jest nam bowiem potrzebna wyszukiwarka, która dopiero jutro po południu będzie w stanie dostarczyć nam informacji, że któryś z naszych znajomych dziś wieczorem się nudzi…

CRAWLOWANIE NIE WYSTARCZY

Można jednak wyobrazić sobie bardziej poważne zastosowania. Okazuje się bowiem, że morze tych wszystkich statusów, tweetów itp. jest całkiem ciekawym źródłem informacji o świecie i ludziach, które można wykorzystać na wiele różnych sposobów. Liderem innowacji w tej dziedzinie jest oczywiście Google, który pracuje nad technologią wyszukiwania w czasie rzeczywistym, tak by można było odnaleźć każdy wpis w serwisach społecznościowych od razu w jednej wyszukiwarce. Nad tym tematem pracuje także Microsoft i kilka mniejszych firm. Choć z pozoru może to wyglądać podobnie jak przeszukiwanie internetu, to nowe rozwiązanie znacząco się różni.
Podstawowym wyzwaniem jest tutaj umożliwienie natychmiastowego zaindeksowania pojawiających się nieustannie nowych informacji. Tradycyjne tzw. crawlowanie stron internetowych tutaj się nie sprawdzi. To same serwisy muszą zasilać w dane dostawców wyszukiwania, jeżeli chcą w ten sposób zachęcić użytkowników do powrotu na ich strony. Poza tym ważnym czynnikiem porządkującym wyniki wyszukiwania – oprócz wspomnianej i najważniejszej świeżości informacji – jest częstotliwość cytowania danego wpisu oraz ustalenie, skąd dana wypowiedź pochodzi. Bo jeżeli ktoś pisze, że ziemia się trzęsie, a on sam znajduje się blisko epicentrum trzęsienia ziemi, to jest to znacznie cenniejsza informacja od tej napisanej 1200 km od danego miejsca. Okazuje się, że można to sprawdzać.

SIŁA SENSU I ZNACZENIA

Moim zdaniem najbardziej obiecującą technologią związaną z wyszukiwaniem jest jednak tzw. wyszukiwanie semantyczne, które najogólniej można opisać jako odnajdywanie w danych sensu i znaczenia, o które nam chodziło. Nasz umysł działa w ściśle określony sposób. Operujemy pojęciami, które opisują nasz świat, zachodzące w nim zjawiska czy nasze emocje. To, co myślimy, ubieramy w słowa i zapisujemy w formie tekstu. Proces ten nazywa się potocznie pisaniem. Jest też proces odwrotny do niego, czyli czytanie. Polega on na łączeniu liter w wyrazy i wyrażenia oraz nadawaniu temu wszystkiemu znaczenia. Potem cała ta informacja jest asymilowana i klasyfikowana i jesteśmy w stanie odpowiedzieć na pytanie, o czym jest ten tekst. Przytaczam tutaj ten krótki opis, ponieważ jest to podstawa teorii MTT, która z angielska zwie się Meaning-Text Theory. Zakłada ona istnienie w języku warstw. Spłaszczając nieco tę teorię, można założyć, że istnieje warstwa semantyczna – czyli pojęcia, sfera abstrakcyjna. Poza tym jest warstwa fonetyczna – wyrazy, pisane lub mówione. Pomiędzy tymi warstwami natomiast jest skończona liczba funkcji przekładających jedną warstwę na drugą, dzięki czemu można automatycznie formułować wypowiedzi. Teoria ta, wymyślona jeszcze w latach 60. XX w., jest wykorzystywana przy automatycznym tłumaczeniu tekstów oraz np. formułowaniu prognoz pogody w różnych językach na podstawie surowych danych meteorologicznych. Ostatnio jednak znalazła uznanie w silnikach wyszukiwania. Pewna niewielka hiszpańska firma pokusiła się o zastosowanie tego wszystkiego do wyszukiwania informacji. Dla kilku wybranych języków na podstawie algorytmów statystycznych wspieranych przez ciężko pracujących lingwistów przygotowano funkcje lingwistyczne znane z MTT dla wybranych dziedzin wiedzy – finanse, ubezpieczenia, obronność etc. W efekcie system wyszukiwania jest w stanie całkiem precyzyjnie określić sens zdania. Z drugiej strony, analizowane jest zapytanie użytkownika, dla którego także automat określa, o co tak naprawdę w danym zapytaniu chodzi. W efekcie wyszukiwanie nie obejmuje sfery wyrazów, słów kluczowych – jak dzieje się to w standardowych silnikach wyszukiwania. Tutaj przeszukujemy „sensy” poszczególnych zdań, czyli pojęcia, i odnajdujemy te dokumenty, które zawierają tekst pasujący do intencji przeszukującego. Zatem jest to odejście od klasycznego modelu przeszukiwania jedynie po wprowadzanych wyrazach z małymi modyfikacjami.

ONTOLOGIE DZIEDZINOWE

Ciekawą modyfikacją tego podejścia jest zastosowanie ontologii w celu nawigowania po sferze pojęć opisujących daną dziedzinę. Powiedzmy, że mamy do dyspozycji ontologię z zakresu medycyny opisującą różne choroby wraz z całą ich charakterystyką i objawami, które przy nich występują. Stosując mapowanie tekstu na znaczenia, można przypisać poszczególnym zdaniom i wyrazom znaczenie według zdefiniowanej przez nas ontologii. W ten sposób uzyskamy funkcjonalność semantycznej nawigacji po wynikach wyszukiwania. Np. jeżeli szukasz czegoś na temat grypy, to system poza tym, że odnajdzie informacje o grypie, to jeszcze zasugeruje inne przeszukiwanie, włączając w to wszystkie objawy, takie jak katar, gorączka, kaszel itp. Pozwala to na odnalezienie informacji o grypie nawet wtedy, gdy nie jest ona nazwana bezpośrednio w tekście, a jedynie opisana za pomocą swoich objawów. Znacznie zwiększa to kompletność wyszukiwania.
W chwili obecnej wiele firm i instytucji badawczych pracuje nad technologiami przeszukiwania informacji w czasie rzeczywistym lub nad wyszukiwaniem semantycznym. Na razie technologie te nie są aż tak bardzo dojrzałe, żeby można było je wdrażać na masową skalę. Natomiast warto zaznaczyć, że w Asseco Poland istnieje takie nieformalne centrum kompetencyjne dla technologii wyszukiwania, którego zadaniem jest badanie różnorodnych zastosowań opartych na wyszukiwaniu. Wydaje się, że problem jakości systemów wyszukujących informacje będzie coraz bardziej istotny, bo warunkuje on bezpośrednio jakość dostępu do informacji. Nie ma bowiem sensu gromadzenie gigabajtów danych w różnorodnej formie, jeżeli nie można znaleźć na czas tego, co jest właśnie potrzebne!

Paweł Wróblewski
Asseco Poland SA