WebSpider (Crawler) - zbieranie treści ze stron WWW
Rodzaje WebSpiderów / Crawlerów:
-
Spider Social Media to dedykowany komponent do zbierania informacji z forów i blogów internetowych. Pozwala na analizę treści HTML, RSS i danych tekstowych, a także danych binarnych (pdf, dokumenty Office, obrazy). Umożliwia wydobywanie informacji znalezionych na stronach (np. treść, autor, tytuł, data, IP nadawcy). Pozwala na zbieranie dynamicznie generowanych treści. Aktualnie dostępne są konfiguracje dla 80 typów blogów i forów, m.in.: phpBB wersja 2 i 3, vbulletin, invisionboard, SMF, wordpress czy blogger.
-
Spider NewsPoint to niezwykle szybka i wydajna aplikacja służąca pobieranie wskazanych przez Klienta treści z Internetu. Rozwiązanie najlepiej sprawdza się w pobieraniu artykułów i innych treści o zbliżonej strukturze. Wykorzystywany jest on m.in. w NewsPoint – usłudze opracowanej przez NetSprint.pl we współpracy z liderem monitoringu Internetu w Norwegii, Opoint AS. Obecnie przeszukujemy ponad 17 tysięcy źródeł w 14 językach; możliwe jest wdrożenie kolejnych językowych wersji systemu i dodawanie nowych języków wyszukiwania.
Mechanizm udostępnienia danych
Spider Social Media oraz Spider NewsPoint mają możliwości udostępniania danych poprzez mechanizm pobierania feedów. Służy on do integracji z innymi systemami informatycznymi. Jest przeznaczony dla dużych organizacji, które chciałyby uwzględnić wyniki przeszukiwania intranetu w swoich intranetach lub też udostępnić w technologii przeznaczonej dla użytkowników końcowych. Mogą ich używać przykładowo:
-
wydawcy, którzy chcą sprawdzić, kto używa treści publikowanych na ich stronach internetowych,
-
duże firmy pragnące wzbogacić swój intranet o wartościowe informacje dotyczące rynku, pracowników czy konkurencji,
-
działy sprzedaży w celu monitorowania rynku,
-
służby publiczne przeprowadzające zaawansowane przeszukiwanie internetu,
-
firmy monitorujące internet, które planują unowocześnić swoje narzędzia internetowe.
Korzystanie z feedów w celach rozwoju własnych serwisów internetowych nie jest jednak równoznaczne z nabyciem praw autorskich do prezentowanych treści, dlatego klient zamierzający wykorzystać treści na zewnętrznych stronach www, powinien uzyskać pozwolenia ze strony właścicieli serwisów.
Zalety
-
Łatwe i szybkie zbieranie nowych treści
-
Prosta integracja z produktem NetSprint IAP
-
Rozwiązania łatwe do wdrożenia w każdym środowisku informatycznym (np. z wewnętrznym firmowym systemem przeszukiwania i zarządzania informacjami)
-
Oszczędność czasu pracowników firmy, przeznaczonego na poszukiwanie informacji w internecie
-
Rozbudowa bazy wiedzy oferowanej użytkownikom serwisu o fora dyskusyjne, blogi, czy też treści z działów z aktualnościami na portalach
-
Możliwość łatwego dodawania nowych serwisów internetowych i wersji językowych systemu, jak również nowych języków
-
Rozwiązania stworzone w Europie ze znajomością europejskich standardów komunikacji biznesowej
-
Skalowalność – obecnie przeszukuje ponad 700 000 źródeł w Polsce
-
Łatwe do rozwijania o nowe funkcjonalności zgodnie z zapotrzebowaniem klienta, czy aktualnymi potrzebami rynkowymi

