Znajdź mi to FAST!

Znajdź mi to FAST!

Wobec rosnących zasobów informacji gromadzonych zarówno przez firmy komercyjne, jak i instytucje publiczne rośnie atrakcyjność nowej generacji platform wyszukiwawczych klasy Enterprise Search.

Lawina danych

Kilka gigabajtów danych coraz częściej mamy przy sobie: w telefonie komórkowym, iPodzie czy notebooku. Tysiąc terabajtów to 100 razy więcej danych, niż zawiera Biblioteka Kongresu amerykańskiego, największa na świecie biblioteka, w której znajduje się ponad 18 mln książek, 2,5 mln nagrań, 12 mln fotografii, 4,5 mln map i 54 mln rękopisów. Szacuje się, że Wielki Zderzacz Hadronów w CERN będzie generował ca 15 tys. terabajtów danych rocznie. Zasoby informacyjne internetu ocenia się obecnie na setki petabajtów, a niektórzy twierdzą, że jest to znacznie więcej.
Zasypani lawiną danych nie uświadamiamy sobie, że informacja, której nie można odszukać, praktycznie nie istnieje. Nieważne, jak jest błyskotliwa, jak trudno było ją stworzyć i kto to zrobił. Jeśli nie można znaleźć jej szybko, prawdopodobnie nigdy nie zostanie wykorzystana. Im dłużej trzeba jej szukać, tym niżej oceniana jest jej jakość. Kto dociera na 10. stronę z linkami, przeszukując internet?
Jak wiele czasu kosztują nas zakupy internetowe? Czy nie lepiej pojechać do kilku sklepów? – pytamy sami siebie, brnąc przez kolejne linki, przepełnieni niedosytem informacji lub borykający się z jej nadmiarem. W pracy coraz więcej czasu pochłania nam wyszukiwanie danych i porządkowanie ich w sposób przydatny dla kolegów z innych działów, przełożonych lub klientów. Poirytowani pospiesznie wykonujemy pilne i ważne działania ze świadomością, że właśnie na nie powinniśmy poświęcić cenne godziny.
Przeszukując zasoby cyfrowe, zazwyczaj zaczynamy od ogólnych haseł, a następnie staramy się zawęzić zakres wyszukiwania. Musimy dodawać kolejne słowa kluczowe lub kategorie, nie mając pewności, czy uzyskamy pożądany efekt. Niestety współczesne wyszukiwarki internetowe nie są jeszcze systemami ekspertowymi, zdolnymi do udzielania odpowiedzi na pytania stawiane przez człowieka w języku naturalnym, np. „Jak najtaniej kupić bilety z Warszawy do Marakeszu w kwietniu 2009 roku?”. Otrzymamy co najwyżej listę linków do stron www, które zawierają określone wyrazy bądź frazy w kolejności zgodnej z algorytmem wartościującym: strona, do której jest więcej odniesień z innych stron, jest bardziej wartościowa.

Based on search

Tymczasem narzędzia nowej generacji oferują wysoce rozwinięte opcje wyszukiwania kontekstowego. Badają one treść dokumentu nie tylko na bazie słów kluczowych, ale przede wszystkim w oparciu o kontekst, analizując znaczenie całych zdań i paragrafów, jednocześnie wyodrębniając z tekstu i łącząc ze sobą informacje dotyczące miejsc, dat, osób, firm, kwot itp. Oferują zaawansowane funkcje lingwistyczne, dzięki którym możliwe jest nie tylko poprawianie pisowni błędnie wpisanych fraz („czy chodziło Ci o…”) czy też wyszukiwanie różnych form gramatycznych tego samego słowa lub wyrażenia. Na bazie taksonomii z dowolnej dziedziny wiedzy automatycznie przypisują treść dokumentu do kategorii. Dzieje się to na podobnej zasadzie jak w bibliotece, gdzie poszczególne książki przypisywane są do grup tematycznych. Dzięki temu dotarcie do dokumentu, tak jak w bibliotece odnalezienie odpowiedniej pozycji książkowej, jest łatwe i szybkie. Umożliwiają wyodrębnienie z tekstu miejsc geograficznych (państw, regionów, miast, ulic itp.), dzięki czemu możesz szybko dokonywać analiz w podziale geograficznym – zarówno w odniesieniu do danych ustrukturyzowanych, jak i nieustrukturyzowanych.
Mianem Business Intelligence Based on Search określane są też narzędzia służące do wyszukiwania i analizy informacji. Podstawą do budowania takich aplikacji może być FAST ESP Microsoftu, w Polsce oferowany przez firmę ABG. Rozwiązanie to wyróżnia niezwykła wydajność i skalowalność, pozwalająca na przetwarzanie 40 terabajtów danych, 10 mld dokumentów, 2 tys. zapytań na sekundę.

FAST w praktyce

Jednym z zastosowań FAST-a jest obszar bezpieczeństwa publicznego. W Dystrykcie Kolumbia w USA FAST ma za zadanie wykrywać zagrożenia poprzez przeszukiwanie i analizowanie wielu źródeł danych, informować o tych zagrożeniach i w efekcie przeciwdziałać katastrofom i wypadkom. W tym celu system analizuje informacje o zdarzeniach zarówno w otwartych źródłach danych, jak i w bazach służb odpowiedzialnych za bezpieczeństwo publiczne. Jeśli przykładowo skojarzy informację o porzuconym w pobliżu banku samochodzie, wysyła odpowiedni alert. Amerykańskie Ministerstwo Rolnictwa wykorzystuje je do monitorowania internetu w poszukiwaniu podejrzanych informacji świadczących o nielegalnym handlu zwierzętami i produktami odzwierzęcymi. Ale FAST to nie tylko produkt dla instytucji publicznych. Rozwiązania tego typu znajdują zastosowanie niemal w każdej branży. Przykładowo sklepy i portale internetowe – to także nasi potencjalni klienci. Zwłaszcza że już teraz FAST jest obudowany rozwiązaniami komercyjnymi, które służą do kreatywnego stymulowania wzrostu przychodów. Trzy z nich to: AdMomentum – inteligentne zarządzanie reklamami, które pozwala na zamieszczanie spotów w zależności od aktywności sieciowej potencjalnego nabywcy; ImPulse i Recommendations – zaawansowane rozwiązanie klasy e-commerce, którego zadaniem jest pokazywanie produktów, o których istnieniu PT klienci nie wiedzą, ale na podstawie analizy zachowań klientów, których system zidentyfikował jako ekspertów, zostaną one im zaprezentowane; Active Mobile – rozwiązania mobilne, pozwalające dostarczyć treści zgodne z oczekiwaniami konkretnego użytkownika, jednocześnie dostosowując je do typu urządzenia, co w efekcie pozwala na skrócenie liczby kliknięć do tzw. premium content, czyli zasobów płatnych.

Sprawdź, jak działa FAST w archiwum „The Times”, które zawiera wszystkie wydania gazety, jakie ukazały się w latach 1785-1985. Szacunkowa wielkość tego zbioru to około miliona stron gazetowych.
http://archive.timesonline.co.uk/tol/archive/
http://archive.timesonline.co.uk/tol/archive/
tol_archive/article4669671.ece

Wydanie: 08/2009, 2009

Kategorie: Nauka

Napisz komentarz

Odpowiedz na treść artykułu lub innych komentarzy