Pułapki automatycznej analizy wydźwięku artykułów

Wspominałam już o nich wcześniej, przy okazji opisywania automatycznej analizy treści. Ponieważ napisała o nich ostatnio Katie Delahaye Paine, postanowiłam również poświęcić im kilka słów.

Katie D. Paine skarży się na istniejące w Stanach darmowe rozwiązania monitorujące internet i posiadające automatyczną analizę wydźwięku artykułów. Wskazuje, że niemal połowa wyników z nich jest nierzetelna.  „Gdyby to była księgowość, już dawno siedziałbyś w więzieniu”, pisze ironicznie. Jej zdaniem, rzetelność pomiaru jest tutaj ważna – chodzi o nasz PR, nasz biznes, naszą branżę – a tę, jej zdaniem, mogą zapewnić dopiero zaawansowane rozwiązania, które posiadają wyrafinowane algorytmy, ale zarazem ich wyniki są testowane przez ludzi. Następnie opisuje cztery główne problemy związane z monitoringiem internetu:

  • istotność treści – K. D. Paine pisze tutaj o niedokładnym wyszukiwaniu przez spidery, które potrafią mylić frazy „small business objects” z „Business Objects” i dzięki temu potrafią zebrać nawet do 90% nieistotnej treści. Wydaje mi się, że chodzi o rozwiązania, które dopiero zbierają treść w oparciu o zdefiniowane słowa kluczowe. Pewną radą może być odwrotna konstrukcja systemu: zbieranie treści z wybranych źródeł, a następnie jej przeszukiwanie – tutaj kryteria przeszukiwania można dodefiniowywać (tak działa nasz system NewsPoint);
  • problem omijania wyników – wszystkim dostawcom rozwiązań monitoringowych zdarza się omijanie wyników, co można łatwo ustalić, korzystając z wyszukiwarek internetu czy wyszukiwarek mikroblogów. Moim zdaniem jest to również kwestia wprowadzenia „ludzkiej” kontroli jakości – sprawdzania zbierania treści ze stron, które znajdują się w bazie, dodawania nowych stron. Żaden spider nie jest w stanie zrobić tego automatycznie, a jeśli mu na to pozwolimy – może również nazbierać stron, które na przykład nie zawierają artykułów, a na przykład podstronę z danymi dotyczącymi reklamy w danym serwisie;
  • dokładność analizy – większość rozwiązań nie potrafi dokonać dokładnej analizy wydźwięku treści, potrafią to jedynie zaawansowane systemy wspierane przez ludzkich koderów. Automatyczna analiza odpowiada na pytanie, jak internauci dyskutują o marce, czy też jakich słów używają najczęściej, mówiąc o tej marce. Nie odpowiada na pytanie, jak myślą. K. Paine wspomina też o znanym problemie z ironią czy o tym, że komputery potrafią dosłownie odczytać wyrażenie z lokalnego dialektu, które pozornie wydaje się negatywne, w rzeczywistości oznacza natomiast pochwałę. Rozwiązaniem tego problemu może być półautomat – dany wpis może być przekodowany przez użytkownika systemu lub zdecydowanie się na analizę dokonywaną przez ludzi (i zlecenie jej na zewnątrz w przypadku braku zasobów we własnej firmie). W przypadku dużej ilości artykułów – ograniczenie się do wybranych źródeł lub przeprowadzanie regularnych analiz, obejmujących mniejsze partie materiału.
  • niekompletne oszacowanie zmiennych – do niektórych analiz trzeba użyć zupełnie innych metod badawczych niż analiza treści czy pomiar ruchu w internecie. K. D. Paine podaje tutaj przykład mierzonego przez nich programu PR. Badanie prób reprezentatywnych dla populacji Stanów nie wskazało zmian w poziomie świadomości. Dopiero badanie osób z grup docelowych programu pokazało tę zmianę. Moim zdaniem ten problem wykracza już poza monitoring internetu i analizę treści – to jest kwestia doboru metody badawczej do problemu. Sama się z tym zetknęłam, gdy analiza treści rozmów na forach i komentarzy na blogach nie dała klientowi odpowiedzi na to, co mówią osoby z jego grupy docelowej – bo tych osób tam po prostu nie było; doradziliśmy dotarcie do osób z branży i zastosowanie wywiadów pogłębionych. Katie uważa w każdym razie, że najbardziej znacząca dla zmiany zachowań konsumentów jest obecność (lub nieobecność) kluczowych przekazów i tę z pewnością warto monitorować.

Problemy te w równym stopniu dotyczą naszego rynku monitoringu internetu. Tak samo stykamy się z omijaniem treści, wynikami niepasującymi do zapytania czy dyskusją nad automatyczną analizą treści, którą swego czasu prowadziłam na blogu Internetstats.pl z przedstawicielami IR Research Center. Tak samo zdarzają się osoby, które oczekują po analizie treści wyników, których ta metoda badawcza nie zapewni.

Zdjęcie pochodzi z serwisu sxc.hu


Strona korzysta z plików cookies w celu realizacji usług zgodnie z Polityka Ciasteczek. OK, rozumiem.

Partnerzy