Czy można ściągnąć internet na dyskietkę?

Albo inaczej: czy jakakolwiek firma monitorująca internet jest w stanie monitorować absolutnie wszystkie treści, które się w nim pojawiają? I czy jest w stanie na podstawie tych treści prowadzić poprawne badania?

Co jakiś czas spotykam się z takimi wątpliwościami i pytaniami. Problem dotyczy z jednej strony monitoringu mediów, w którym najczęściej powtarzanym zarzutem jest brak 100% treści. Kiedyś brakujących wyników szukało się ręcznie (pamiętam czasy, w których jeździłam do archiwum jednej z grup medialnych i przekopywałam zakurzone wydania ich dzienników), w przypadku treści internetowych braki sprawdza się ręcznie w wyszukiwarce (sama tak robiłam, gdy pracowałam w agencjach PR). Ten sam zarzut pojawia się też wobec badań realizowanych metodą analizy treści. Brak absolutnie wszystkich danych = błąd w metodologii badania. Badanie jest nieważne, bo trzeba sprawdzić absolutnie wszystko. Czy aby na pewno?

Zdjęcie pochodzi z serwisu sxc.hu

Czy aby na pewno? W monitoringu internetu istnieją cztery główne grupy ograniczeń.

  • Ograniczenia serwisów internetowych

Niektóre serwisy społecznościowe celowo nie pozwalają pobierać z nich zbyt dużej ilości danych. Tutaj prym wiedzie przede wszystkim Facebook, który nakłada liczne ograniczenia na korzystających z jego interfejsu programowania (Application Programming Interface, API). Nie będziesz miał innego Fejsbuka poza Fejsbukiem, koniec, basta. Dlatego nie da się monitorować całego Facebooka i jeśli ktoś tak mówi, to równie dobrze mógłby się chwalić tym, że ściągnął cały Internet na dyskietkę. Z kolei Twitter, który nie stosuje ograniczeń i pozwala w pełni korzystać ze swojego API, gubi po drodze sporą część danych i nie można ich też znaleźć w jego archiwum (które w dodatku ostatnio często się wiesza). Teoretycznie powinna być możliwość otrzymywania wszystkich wpisów, w praktyce bywa z tym różnie. To tylko dwa przykłady.

  • Ograniczenia prawne

Treść wielu forów jest dostępna tylko dla zarejestrowanych użytkowników. Niektóre serwisy nakładają też swoje dodatkowe ograniczenia prawne (nawet wyszukiwarka Google, która ogranicza liczbę zadawanych jej za darmo zapytań do 100 dziennie; powyżej większej liczby – trzeba płacić, jeśli chce się działać zgodnie z prawem). Czasem nawet ja jako zwykły zjadacz chleba spotykam się z ostrzeżeniem, że zadaję za dużo zapytań i w związku z tym chyba jestem robotem.

  • Sposób zadania zapytania

To, co utrudnia zebranie wszystkich danych, to sposób zadania samego zapytania. Monitoring internetu działa dokładnie tak, jak zwykła wyszukiwarka: wpisujemy szukane słowo lub frazę i otrzymujemy wyniki zawierające to słowo (frazę). Im dokładniejsze zapytanie, tym więcej wyników. Często zdarza się jednak tak, że poszczególne posty mogą nie zawierać słowa kluczowego, a również go dotyczą – na przykład są to inne posty z jednego wątku na forum. Czasem zamiast oficjalnej nazwy firmy może być używana nazwa nieoficjalna lub skrót. Czasem nazwa jest bardzo wieloznaczna.

  • Ograniczenia technologii monitorującej internet

Każda technologia monitorowania internetu ma do tego również swoje własne ograniczenia. Mogą one wiązać się ze sprzętem i wydajnością, jak też sposobem zbierania i przetwarzania danych. Przykład: amerykańskie rozwiązania zazwyczaj nie są dość dokładne w przypadku innych języków. Albo nie wszystkie firmy monitorujące ten sam typ mediów są w stanie wyłapać dokładnie te same treści – każda z nich ma inną technologię, w jednych przypadkach działającą lepiej, w innych gorzej, dlatego ich wyniki się różnią (nie inaczej jest też w przypadku wyszukiwarek).

Czy wobec tego istnieją narzędzia, które są w stanie wychwycić absolutnie wszystkie treści w internecie? O ile przyjmujemy, że wszystkie treści to to, co znajduje wyszukiwarka internetowa, z której korzystamy, to ona jest w stanie wychwycić wszystkie treści. Pytanie, co się stanie, gdy porównamy wyniki z niej z wynikami z innej wyszukiwarki… Okazuje się, że też się one różnią (kiedyś na studiach bawiłam się w ten sposób, porównując strony z różnych wyszukiwarek i chociaż główne strony powtarzały się w większości z nich, każda znajdowała też coś, czego z kolei nie znalazła inna). Powody tych różnic są dokładnie takie same jak powody różnic między treściami w systemach monitorujących internet.

Czy badania, które są oparte na takich materiałach, mają błędną metodologię? Nie. Mają te same ograniczenia, co narzędzie, które posłużyło do przeprowadzenia badania. Na to nakłada się jeszcze ograniczenie samej analizy treści jako metody badawczej.  Bo każda z metod takie ograniczenia i słabości ma. W przypadku analizy treści główną jej wadą jest to, że w porównaniu z innymi metodami badawczymi, dane z niej uzyskane mogą się wydawać dość niepełne i dość ogólne – jak zresztą dzieje się w przypadku wszystkich badań jakościowych. Jednak czy przez to analiza treści została całkowicie zanegowana? Nie, nadal figuruje we wszystkich podręcznikach metodologii. Badania zrealizowane za pomocą tej metody jak najbardziej są poprawne, jeśli tylko badacz przestrzega przyjętej przez siebie procedury i jeśli przeanalizował znakomitą większość (lub próbę – w przypadku dużych ilości danych) materiałów na dany temat. Wspomina też o tym Amanda Nelson z Radian 6 na ich blogu Social Strategy.

Co na to inni badacze, korzystający z analizy treści? I jak widzicie to Wy – odbiorcy badań?

Powiązane wpisy:

Tags: , ,

Odpowiedzi: 7 do “Czy można ściągnąć internet na dyskietkę?”

  1. Paweł Tkaczyk
    29/06/2011 o 22:19 #

    IMO badania, które nie oddają stanu faktycznego mają błędną metodologię, kropka. I mówienie, że „serwis internetowy narzuca ograniczenia” to zaklinanie rzeczywistości. Jeśli nie da się czegoś przebadać, nie publikuje się raportu.

    Zobacz, w raporcie dotyczącym Infoshare NetSprint napisał, że Twitter nie był obecny w dyskusji. Ale ja byłem na Infoshare i wiem, że był obecny niemal na równi z Blipem, tylko ludzie piszący raport nie wiedzieli, że na Twitterze tagiem opisującym konferencję był #is2011, a nie #infoshare. Możemy nazywać to błędem ludzkim, możemy nazywać ograniczeniami medium, ale stan faktyczny jest taki, że Twitter był obecny na Infoshare. Kropka.

    To tak, jakby NetSprint publikował raport dotyczący populacji krów w moim województwie i ogłosił, że występują tam cztery krowy. Na co wstaje farmer i mówi „Mieszkam w tym województwie i mam 2.500 krów.” A twórcy raportu na to „Tak, ale nie wpuścił pan nas na swoją farmę.” albo „Nie zgłosił ich pan do odpowiedniego urzędu, więc ich nie liczyliśmy.”

    Posiłkowanie się wiedzą o czterech krowach jest w tym przypadku bez sensu. Niezależnie od tego, jak perfekcyjnie zaplanowana byłaby metoda badawcza, prawda?

    • Anna Miotk
      29/06/2011 o 22:48 #

      Pawle, dziękuję za komentarz i cieszę się, że zdecydowałeś się zabrać głos w dyskusji. Zgadzam się, że najlepszą sytuacją jest sytuacja, gdy możemy przebadać całą populację (w tym przypadku absolutnie wszystko, co pokazało się na dany temat), bo wtedy mamy najbardziej pewne dane. Ale z jakiegoś powodu nie da się tego zrobić i w sondażach ma miejsce losowanie prób (podobnie robi się też w Stanach jeśli na przykład baza wszystkich postów dla danej firmy idzie w dziesiątki tysięcy w ciągu miesiąca czy roku). Jak wiadomo, takie próby są też obarczone błędami. Można dobrać próbę do badania na zasadzie dostępności – czyli dotrzeć do tych osób, do których w danym momencie da się dotrzeć. Tak właśnie robiłam ankietę do doktoratu – ponieważ nie ma w Polsce jednej ogólnodostępnej bazy PR-owców, wysłałam prośbę o wypełnienie ankiety na listę InternetPR.pl i moje wnioski dotyczyły osób, które wypełniły ankietę. I teraz moje pytanie. Skoro nigdzie w internecie nie ma jednej bazy wszystkich tekstów, które kiedykolwiek pokazały się we wszystkich serwisach internetowych, w jaki sposób chciałbyś znaleźć i przebadać wszystkie teksty na dany temat? Wracając do Twojej analogii – skoro województwo nie ma jednej centralnej bazy krów, a farmer – posiadacz 2500 krów – nie wpuścił ankieterów ani nie podał danych urzędom, w jaki sposób badacz ma uwzględnić tego farmera, jeśli oparł się właśnie na danych z urzędów i ankiet? Tak sobie myślę, że i Ty masz rację mówiąc, że najlepszą opcją jest przebadanie całej populacji albo uzupełnienie danych innymi metodami (na przykład ankietą do badanych z pytaniem – które social media w Waszym odczuciu najlepiej pozwalały się kontaktować z innymi uczestnikami konferencji?), ale też i ja mam, mówiąc, że można się oprzeć na metodzie dostępności jeśli wiemy, że dane są niepełne (i mówić o ograniczeniach tego podejścia). Prawda leży gdzieś pośrodku.

      • Paweł Tkaczyk
        29/06/2011 o 23:14 #

        Dobre pytanie :) Nie znam na nie odpowiedzi. Wiem natomiast, że ogłaszanie definitywnej ilości krów, kiedy nie udało się wejść do wszystkich farm nie ma sensu.

        Ja nie mam zastrzeżeń do raportu jako całości – zrobiliście dobrą robotę przeczesując Blipa, Facebooka i blogi. Ale pisanie, że Twitter *nie* był obecny (podczas gdy tak naprawdę – ze względu na ograniczenia platformy – nie przebadaliście go) to tak, jakby pisać, że krów nie było na farmie. W jakiś sposób podważa to wiarygodność całości, dużo lepiej byłoby napisać „nie byliśmy w stanie przeczesać Twittera”.

        W przeciwnym wypadku jest jak z czarnym łabędziem. Obserwowanie białych łabędzi może doprowadzić Cię do wniosku, że czarne nie istnieją. Próby losowe, o których piszesz w powyższym komentarzu to takie właśnie obserwacje. Zgadzam się, że można na ich podstawie formułować jakieś tezy. I możesz spędzić całe życie obserwując białe łabędzie, co tylko potwierdza Twoją tezę. Ale wystarczy jeden czarny, by zniweczyć tezę podpartą latami obserwacji. Tag #is2011 to właśnie czarny łabędź, którego nie znaleźliście ;)

        • Anna Miotk
          30/06/2011 o 9:44 #

          Pawle, ta notka była inspirowana nie tylko Twoimi wątpliwościami. Bardzo często spotykam się na przykład z pomysłem, że na przykład skoro w ciągu ostatniego roku pojawiło się kilkanaście tysięcy postów na temat danego produktu, to trzeba koniecznie przebadać wszystko – tłumaczenie, że warto skrócić okres analizy lub oprzeć się na kilku najistotniejszych serwisach, nie działa. Czasem pojawia się też pomysł, że skoro jakiś serwis nie został uwzględniony w analizie, to badanie w całości nie jest ważne. Dlatego postanowiłam o tym napisać. Wiem, że z podobnym podejściem borykają się firmy monitorujące prasę – kiedy byłam PR-owcem, też oczekiwałam od nich, że będą mi w stanie dostarczyć absolutnie wszystkiego i byłam zdziwiona, jak w rzeczonym archiwum prasowym zawsze znajdowały się jakieś braki. Gdzieś w tle kołatało się marzenie, że wreszcie na rynku pojawi się dostawca, który będzie miał absolutnie wyczerpującą bazę danych. Tymczasem to jest taki święty Graal jak marzenie o tym, że „istnieje jedna uniwersalna technika pomiaru efektów działań PR, tylko do tej pory jej nie znaleziono”. Braki danych zawsze były, są i będą – każde narzędzie badawcze ma swoje ograniczenia. Inne metody badawcze, stosujące inne narzędzia, też się z takimi brakami zmagają (na przykład sondaże mają wspaniale wystandaryzowane narzędzie w postaci ankiet, wszystkim osobom zadajemy te same pytania, ale z drugiej strony grozi nam nadmierne uproszczenie rzeczywistości). I ja akurat uważam, że warto, aby osoby, które stykają się z badaniami komunikacji, miały tego pełną świadomość – i cieszę się, że toczy się ta debata. Bo obiecywanie gruszek na wierzbie p.t. „mamy absolutnie wszystkie dane, które kiedykolwiek pojawiły się w sieci” kończy się wielkim rozczarowaniem i nieufnością do wszystkich firm.

          Co do Twittera. Nawet wtedy, gdy badałam go w czasie rzeczywistym (np. dość podobny raport z InternetBeta), a nie post factum, dane pokazywały, że jednak więcej dzieje się i dyskutuje na Blipie. Tutaj ograniczeniem było to, że zbieranie danych było prowadzone kilka tygodni po konferencji i nawet to, że używałam kilku różnych narzędzi nie wyeliminowało wszystkich problemów (ponieważ wiem, że Twitter jest niedoskonały, weryfikuję go na różne sposoby). Ze względu na niedoskonałość Twittera w zakresie udostępniania danych najlepszą opcją jest sprawdzanie go w czasie rzeczywistym (mamy hasło, czekamy aż pojawią się pierwsze wyniki, sprawdzamy). Jednak to nie zmienia mojego głównego wniosku – gdybym miała rekomendować organizatorom konferencji oficjalnego mikrobloga, nadal rekomendowałabym Blipa niż Twitter – różnica między nimi jest kilkakrotna. Być może za jakiś czas szala przechyli się na korzyść Twittera. Na razie jest to narzędzie, które nie ma polskiej wersji językowej. Tutaj mam pytanie, jaka jest jego wartość komunikacyjna, skoro nie udostępnia ono swoich pełnych danych, i dane archiwalne w dość krótkim czasie przestają być dostępne? Ale to jest temat już na osobą debatę :-)

          Co do białych i czarnych łabędzi. To działa… ale w naukach przyrodniczych. Tam jest tak, że jeśli kolejny eksperyment (przeprowadzony w tych samych warunkach) neguje działanie jakiegoś prawa, to prawo jest nieważne. W naukach społecznych tak już nie jest – mówi się o większości przypadków potwierdzających dane prawo, regułę. Czyli: nie mam stuprocentowej pewności, ale mogę to powiedzieć z jakimś tam prawdopodobieństwem (jest ono dokładnie określone wtedy gdy mamy próbę losową). Teoria jest zmieniana dopiero wtedy, jeśli większość przypadków przeczy danej regule, czyli można powiedzieć „większość łabędzi jest czarna” :-)

          Co do badań. Raport nigdy nie jest gotowym i zamkniętym produktem. Badacz nie zna wszystkich ograniczeń nawet po jego zamknięciu. Badacz nigdy nie ma stuprocentowej pewności, czy wnioski jakie wyciągnął bazując na jakichś danych, są np. zgodne z tym, co zaobserwowały inne osoby, które są zaangażowane w dany proces. I nie ma badań, co do których ktoś nie miałby pytań i wątpliwości, czy czegoś nie można było zrobić inaczej, czy wnioski są zgodne z obserwacjami. Myśmy na przykład też byli zaskoczeni, że wystąpienie, które w kuluarach konferencji było oceniane najlepiej (zdaniem kilku uczestników konferencji), w social media nie były tak szeroko komentowane. Też dane nie zgadzały się z obserwacjami. Właśnie po to jest dyskusja nad raportem, dzielenie się pytaniami i wątpliwościami, wspólne zastanawianie się nad ograniczeniami – i to jest normalna i standardowa część procedury badawczej. I zawsze ktoś z odbiorców wniesie swój jakiś wkład, swoje obserwacje, swoją wiedzę, rozpoczyna się debata, jedni mówią tak, drudzy mówią inaczej, przy czym prawda leży zazwyczaj gdzieś pośrodku (tutaj też warto mówić o tym, że właśnie to tak wygląda, że raport to nie jest zamknięty produkt i że zawsze można znaleźć inny sposób i inny pomysł na badanie niż zrobił to badacz; ja zresztą też dopytuję kolegów, którzy dzielą się wynikami swoich badań, o różne aspekty czy sugeruję im jakiś niezbadany obszar). Do tego rodzą się nowe pomysły – ja dzięki naszej rozmowie już kilka mam ;-)

  2. Marcin Nagraba
    30/06/2011 o 17:16 #

    Długo jeszcze nie będzie systemu do pomiaru treści w Internecie, które mogłyby pretendować do uniwersalności. Inetrnet nie jest wystandaryzowany.

    Pomijając sprawy wyszukiwania, operacjonalizacji problemu, czy ograniczeń prawnych brakuje nam jeszcze wielu narzędzi np. do analizy treści w multimedach (oczywiście prócz tzw interface’ów białkowych).

    • Anna Miotk
      01/07/2011 o 10:58 #

      Marcinie, dzięki za Twoje sugestie. Co do multimediów – rozwiązania, które wyszukują opisy i komentarze przy nich istnieją, niektóre próbują dokonywać automatycznej analizy różnych parametrów. Jednak interfejs białkowy jest niezastąpiony ;-)

      • Marcin Nagraba
        04/07/2011 o 10:44 #

        Miałem na myśli oczywiście analizy obrazu i dźwięku (nie tylko rozpoznawanie mowy). Rozumiem, że cały wpis ma raczej edukacyjny charakter. Badanie jest zwykłym projektem – definiujemy sobie rzeczywistość, smartne cele i próbujemy skutecznie i efektywnie je zrealizować – efektem ma być pewna wiedza z zaakceptowanym przez nas błędem trafności.

Napisz komentarz