Czyli znowu przejechałam się po automatach do analizy wydźwięku.
Prawdę mówiąc, to ja powinnam była napisać, że będę niedostępna, i nie chwilowo, ale przez miesiąc. Prace nad stroną tak się przedłużały (nanosiliśmy co i rusz kolejne poprawki), więc odkładałam pisanie notek, a dodatkowo sprzyjał temu nawał prac wszelakich. Jesień jest bardzo gorącym okresem, przynajmniej w mojej branży. Naprawdę dużo się dzieje.
Tym razem wrócę do mojego ulubionego tematu, czyli branżowej wersji bullshit bingo. Otóż debata nad sensem stosowania automatów w analizie wydźwięku, która jeszcze niedawno mogła się wydawać czymś egzotycznym, przeniosła się do Polski, razem z kolejną falą rozwiązań do monitoringu social media. Autorzy rodzimych rozwiązań postanowili uczynić sobie z automatów do analizy wydźwięku element przewagi konkurencyjnej. Bo na pierwszy rzut oka wygląda to imponująco: wydaje się, że jesteś w stanie przetworzyć dużą ilość danych (na przykład kilkadziesiąt tysięcy postów) i pokazać, jaki udział w nich mają posty negatywne, jaki pozytywne, a jaki neutralne. Do tego na ładnym kolorowym wykresie, na widok którego czytelnik dostaje wielkich oczu (w Stanach ironicznie nazywanych „syndromem dużych lśniących obiektów”). Do tego, jeśli jeszcze z angielska się nazywa (choć Polacy nie gęsi i swój język mają, swój odpowiednik językowy też – dla przypomnienia załączony demot), to jest to dopiero super-hiper fyczer!
Obrazek pochodzi z serwisu Demotywatory.pl
Jednak co bardziej dociekliwi szybko zadadzą sobie pytanie: co jest pod spodem? I wtedy można się nieźle zdziwić, o czym świadczy wpis bardzo rozczarowanego automatami Norberta Kilena. Rzeczywistość nie jest już taka kolorowa, jak wykres. Po prostu nie da się zrobić uniwersalnego automatu, który będzie działał dobrze we wszystkich przypadkach – firma SAS wie, co robi, jeśli proponuje wdrożenie uczących się rozwiązań dla konkretnego słowa kluczowego w jego określonym kontekście (i jeszcze odpowiednio sobie za takie wdrożenia liczy). Co oznacza, że bardzo duża liczba wyników będzie po prostu nietrafiona. Najlepsze rozwiązania amerykańskie osiągają 80% trafności, a weźmy pod uwagę, że język polski jest o wiele bardziej złożony. Nie wierzę w uniwersalną trafność na poziomie 80% możliwą do osiągnięcia w ciągu roku, skoro badania nad ekspresją emocji w języku, robione w poważnych projektach naukowych, trwają po kilka lat. Do tego w social media język podlega bardzo szybkim zmianom: coś, co jeszcze wczoraj miało wydźwięk neutralny, dziś może mieć już negatywny albo pozytywny (w zależności od tego, kim jest wypowiadający się – ot weźmy chociażby słowo „Budapeszt” z wystąpienia Jarosława Kaczyńskiego po wyborach). Ale to może rozstrzygnąć tylko człowiek, który siedzi przed komputerem i czyta wpisy.
Co w zamian? Co możemy zrobić w przypadku potrzeby wyciągnięcia wniosków z dużej liczby danych? Otóż z tak dużego zbioru (kilkanaście lub kilkadziesiąt tysięcy postów) możemy po prostu wylosować małą próbkę do analizy i ręcznie zakodować tę małą próbkę. Zgodnie ze wszelkimi regułami nauk społecznych. Wynik będzie z pewnością obarczony mniejszym błędem, niż analiza dokonana przez automat („równie dobrze możesz posadzić małpę do kodowania i osiągnie ona taką samą trafność”, zaironizował mój znajomy badacz). Przygotuję zresztą wkrótce jakiś przykład, jak to się robi.
Co zaś, jeśli chcemy uzyskiwać powiadomienia o potencjalnie kryzysogennych postach w social media jeśli już social media monitorujemy? Doprecyzować samo wyszukiwanie o słowa najczęściej występujące w kontekście (i najlepiej zrobić sobie osobny profil na takie powiadomienie). Przykładowo, jesteśmy producentem AGD i chcemy monitorować skargi klientów na źle działającą obsługę punktów serwisowych. Jakie słowa najczęściej pojawiają się w tego rodzaju artykułach? Przykłady: „usterka”, „gwarancja”, „naprawa”, „reklamacja”, „niezałatwiona”, „oszuści”, „złodzieje”, „fail”, „sucks”, itd. Systemy monitoringu mediów istniejące na rynku zazwyczaj na takie dodatkowe precyzowanie pozwalają, a będzie miało ono większy sens, niż uniwersalny automat do analizy wydźwięku. Automaty do wszystkiego są do niczego, parafrazując popularną reklamę.