Analiza sentymentu a bullshit bingo

O kalkach i innych problemach językowych związanych z monitoringiem internetu.

Któregoś razu skądś dostałam pdfa z Bullshit Bingo – grą, która polega na wykreśleniu jak największej liczby słów typowych dla korporacyjnej nowomowy, zasłyszanych podczas zebrania korporacyjnego. Kto pierwszy wykreśli całą kolumnę lub wiersz, wstaje i głośno krzyczy „bullshit!”. I rzecz jasna, wygrywa. Ponieważ jestem zbieraczem różnych dziwnych ciekawostek, pdf wisiał sobie w archiwum mojej przepastnej skrzynki mailowej. Dopóki któregoś dnia nie został wydobyty na światło dzienne…

Było to w momencie, gdy w mojej poprzedniej firmie, w dziale obsługującym klientów z sektora IT, kolejny ekąt rwał sobie włosy z głowy nad materiałami dostarczonymi przez klienta. Co drugie słowo – kalka językowa w rodzaju „system dedykowany dla”, „implementacja” itd. Chociaż przerabialiśmy te teksty na piękną polszczyznę, tłumaczyliśmy, prosiliśmy, słowa uparcie powracały. Tak narodził się pomysł stworzenia własnej wersji bingo. Przygotowaliśmy kratki, powiesiliśmy na działowej gazetce, i co i rusz któryś z ekątów dopisywał nową kalkę językową ku powszechnej uciesze gawiedzi. Niestety, zanim wersja bingo była gotowa, zmieniłam pracę…

Dzisiaj chętnie dopisałabym do bingo jeszcze jedno słowo, które namiętnie bywa stosowane w branży monitoringu social media. Analiza sentymentu. Aaaa! Mam ochotę tak samo rwać sobie włosy z głowy, jak ów zrozpaczony ekąt z działu IT. Nie wiem, czemu koledzy z konkurencyjnych firm i niektórzy klienci uparli się na to, aby mówić „analiza sentymentu” tylko dlatego, że w angielskim mamy „sentiment analysis”. Angielskie „sentiment” nie oznacza tego samego, co polski sentyment. Do tego w polskim istnieje odpowiednik. Wydźwięk, drodzy Państwo. Wydźwięk. Piękne polskie słowo, nieprawdaż?*

Co do wydźwięku. W branży w Polsce toczy się debata nad sensem stosowania automatów, które automatycznie zakwalifikują posty z social media do negatywnych, pozytywnych i neutralnych. Stosować, czy nie stosować? Pytają o to też w Stanach, gdzie rozwiązania do monitoringu social media są technologicznie bardzo zaawansowane. Zdania są podzielone. Zwolennicy mówią, że automaty ułatwiają szybkie przeanalizowanie dużej ilości postów (w przeciwieństwie do analizy robionej człowiekiem) i pokazują piękne wykresy dla paru tysięcy postów z kilku ostatnich dni. Przeciwnicy mówią, że automaty popełniają mnóstwo błędów. Wystarczy spojrzeć w raport FreshMinds Research z czerwca b. r., gdzie wszyscy najwięksi światowi dostawcy monitoringu social media za automaty do analizy treści oceniani są tak samo źle czy na obrazek, który pokazał przedwczoraj na Facebooku Bartek Brzoskowski (niestety nie podał źródła):

sentyment

A dlaczego? Jak mawia K. D. Paine, komputery nie rozumieją ironii – czyli nie radzą sobie z zawiłościami języka. Nie radzą sobie z angielskim, a pomyślcie, co musi dziać się w przypadku polskiego, który ma o wiele bardziej skomplikowaną strukturę. Do tego jeszcze zdaniem moich informatyków, język ma różne podzbiory słów, dlatego stworzenie jednego poprawnie działającego automatu do analizy wydźwięku dla całego języka (nie zaś na potrzeby konkretnego zestawu haseł) jest praktycznie niemożliwe. Siłą rzeczy rozwiązanie będzie popełniało błędy. Owszem, istnieją na rynku dobre rozwiązania do tworzenia takich automatów, ale 1) operują one na niewielkich zbiorach słów 2) muszą być „douczane” przez ludzi, którzy kodują próbki tekstów 3) ich wdrożenia są kosztowne. Zatem – uwaga na rozwiązania z wbudowanym automatem. Wyniki automatycznej analizy wydźwięku kilku tysięcy wpisów z różnych miejsc sieci ładnie wyglądają, ale tylko na zbiorczych wykresach. W przypadku poszczególnych wyników może się okazać, że i tutaj mamy do czynienia z bullshit bingo…

*Dzięki wczorajszemu mailowi od pewnego dziennikarza czuję się zbudowana – dziennikarz ten konsekwentnie używał określenia „analiza wydźwięku”.


Partnerzy