Czy można ściągnąć internet na dyskietkę?

Albo inaczej: czy jakakolwiek firma monitorująca internet jest w stanie monitorować absolutnie wszystkie treści, które się w nim pojawiają? I czy jest w stanie na podstawie tych treści prowadzić poprawne badania?

Co jakiś czas spotykam się z takimi wątpliwościami i pytaniami. Problem dotyczy z jednej strony monitoringu mediów, w którym najczęściej powtarzanym zarzutem jest brak 100% treści. Kiedyś brakujących wyników szukało się ręcznie (pamiętam czasy, w których jeździłam do archiwum jednej z grup medialnych i przekopywałam zakurzone wydania ich dzienników), w przypadku treści internetowych braki sprawdza się ręcznie w wyszukiwarce (sama tak robiłam, gdy pracowałam w agencjach PR). Ten sam zarzut pojawia się też wobec badań realizowanych metodą analizy treści. Brak absolutnie wszystkich danych = błąd w metodologii badania. Badanie jest nieważne, bo trzeba sprawdzić absolutnie wszystko. Czy aby na pewno?

Zdjęcie pochodzi z serwisu sxc.hu

Czy aby na pewno? W monitoringu internetu istnieją cztery główne grupy ograniczeń.

Ograniczenia serwisów internetowych

Niektóre serwisy społecznościowe celowo nie pozwalają pobierać z nich zbyt dużej ilości danych. Tutaj prym wiedzie przede wszystkim Facebook, który nakłada liczne ograniczenia na korzystających z jego interfejsu programowania (Application Programming Interface, API). Nie będziesz miał innego Fejsbuka poza Fejsbukiem, koniec, basta. Dlatego nie da się monitorować całego Facebooka i jeśli ktoś tak mówi, to równie dobrze mógłby się chwalić tym, że ściągnął cały Internet na dyskietkę. Z kolei Twitter, który nie stosuje ograniczeń i pozwala w pełni korzystać ze swojego API, gubi po drodze sporą część danych i nie można ich też znaleźć w jego archiwum (które w dodatku ostatnio często się wiesza). Teoretycznie powinna być możliwość otrzymywania wszystkich wpisów, w praktyce bywa z tym różnie. To tylko dwa przykłady.

Ograniczenia prawne

Treść wielu forów jest dostępna tylko dla zarejestrowanych użytkowników. Niektóre serwisy nakładają też swoje dodatkowe ograniczenia prawne (nawet wyszukiwarka Google, która ogranicza liczbę zadawanych jej za darmo zapytań do 100 dziennie; powyżej większej liczby – trzeba płacić, jeśli chce się działać zgodnie z prawem). Czasem nawet ja jako zwykły zjadacz chleba spotykam się z ostrzeżeniem, że zadaję za dużo zapytań i w związku z tym chyba jestem robotem.

Sposób zadania zapytania

To, co utrudnia zebranie wszystkich danych, to sposób zadania samego zapytania. Monitoring internetu działa dokładnie tak, jak zwykła wyszukiwarka: wpisujemy szukane słowo lub frazę i otrzymujemy wyniki zawierające to słowo (frazę). Im dokładniejsze zapytanie, tym więcej wyników. Często zdarza się jednak tak, że poszczególne posty mogą nie zawierać słowa kluczowego, a również go dotyczą – na przykład są to inne posty z jednego wątku na forum. Czasem zamiast oficjalnej nazwy firmy może być używana nazwa nieoficjalna lub skrót. Czasem nazwa jest bardzo wieloznaczna.

Ograniczenia technologii monitorującej internet

Każda technologia monitorowania internetu ma do tego również swoje własne ograniczenia. Mogą one wiązać się ze sprzętem i wydajnością, jak też sposobem zbierania i przetwarzania danych. Przykład: amerykańskie rozwiązania zazwyczaj nie są dość dokładne w przypadku innych języków. Albo nie wszystkie firmy monitorujące ten sam typ mediów są w stanie wyłapać dokładnie te same treści – każda z nich ma inną technologię, w jednych przypadkach działającą lepiej, w innych gorzej, dlatego ich wyniki się różnią (nie inaczej jest też w przypadku wyszukiwarek).

Czy wobec tego istnieją narzędzia, które są w stanie wychwycić absolutnie wszystkie treści w internecie? O ile przyjmujemy, że wszystkie treści to to, co znajduje wyszukiwarka internetowa, z której korzystamy, to ona jest w stanie wychwycić wszystkie treści. Pytanie, co się stanie, gdy porównamy wyniki z niej z wynikami z innej wyszukiwarki… Okazuje się, że też się one różnią (kiedyś na studiach bawiłam się w ten sposób, porównując strony z różnych wyszukiwarek i chociaż główne strony powtarzały się w większości z nich, każda znajdowała też coś, czego z kolei nie znalazła inna). Powody tych różnic są dokładnie takie same jak powody różnic między treściami w systemach monitorujących internet.

Czy badania, które są oparte na takich materiałach, mają błędną metodologię? Nie. Mają te same ograniczenia, co narzędzie, które posłużyło do przeprowadzenia badania. Na to nakłada się jeszcze ograniczenie samej analizy treści jako metody badawczej. Bo każda z metod takie ograniczenia i słabości ma. W przypadku analizy treści główną jej wadą jest to, że w porównaniu z innymi metodami badawczymi, dane z niej uzyskane mogą się wydawać dość niepełne i dość ogólne – jak zresztą dzieje się w przypadku wszystkich badań jakościowych. Jednak czy przez to analiza treści została całkowicie zanegowana? Nie, nadal figuruje we wszystkich podręcznikach metodologii. Badania zrealizowane za pomocą tej metody jak najbardziej są poprawne, jeśli tylko badacz przestrzega przyjętej przez siebie procedury i jeśli przeanalizował znakomitą większość (lub próbę – w przypadku dużych ilości danych) materiałów na dany temat. Wspomina też o tym Amanda Nelson z Radian 6 na ich blogu Social Strategy.

Co na to inni badacze, korzystający z analizy treści? I jak widzicie to Wy – odbiorcy badań?

Czy można ściągnąć internet na dyskietkę?

Powiązane artykuły: