Automatyczna analiza treści

Rozwiązania monitorujące internet dokonują automatycznej analizy wydźwięku artykułów. Czy taka analiza może być jednak całkowicie poprawna?

Wyobraźmy sobie, że chcemy przeanalizować wydźwięk kilku tysięcy artykułów, jakie pojawiły się w ostatnim miesiącu na temat premiera RP Donalda Tuska. Można to oczywiście zrobić ręcznie, czytając każdy artykuł i kwalifikując jego wydźwięk według wcześniej ustalonej przez nas skali. Zajmie to jednak dużo czasu i zasobów ludzkich.Gdyby jednak ten proces zautomatyzować, teksty publikacji przepuszczając przez specjalny program, który sprawdziłby najbardziej charakterystyczne frazy o wydźwięku pozytywnym, neutralnym lub negatywnym w poszczególnych tekstach, następnie zaś zaklasyfikował poszczególne artykuły jako pozytywne, neutralne lub negatywne właśnie, a następnie to wszystko podliczył? Albo jeszcze inny pomysł – program sprawdzałby, jakie inne znaczące dla nas słowa są często wzmiankowane w tekstach zawierających na przykład nazwę naszej firmy. Czy jesteśmy „wiodącą w Polsce firmą”, „liderem rynku”, a może „specjalistami w zakresie …”. Pełna wygoda dla użytkownika.

Dlatego automatyczna analiza treści coraz częściej staje się ważnym elementem nowoczesnego monitoringu internetu. Algorytmami do analizy wydźwięku tekstów posługują się firmy zagraniczne, jak chociażby mój ulubiony Radian6. Na listopadowej konferencji ZFPR ponad cztery lata temu widziałam też pomysł Echo Research na sprawdzanie, ile i jakich treści z konkretnej informacji prasowej jest cytowanych w artykułach powstałych na jej podstawie. Ćwiczyliśmy to co prawda ręcznie, ale prowadzący przekonywał nas, że są w stanie taką analizę przeprowadzić korzystając z narzędzi informatycznych. Automatem posługują się twórcy polskiego narzędzia Wyszukali (bardzo ciekawie objaśniali swoje pomysły w niedawnej debacie na InternetStats.pl), wprowadzenie go  zapowiada również Brandometr.

My (NewsPoint) też korzystamy z rozwiązań automatycznych, chociaż w jeszcze inny sposób. Oceny wydźwięku publikacji użytkownik naszych rozwiązań może dokonywać samodzielnie, jednak mamy rozwiązanie, które pozwala na wybranie odpowiedniego kontekstu dla słowa wieloznacznego (wyobraźcie sobie, że chcecie przeanalizować ręcznie wszystkie publikacje w języku angielskim dla marki Orange) czy wychwycenie tych wszystkich publikacji, które mówią o organizacji w określony sposób (jeden z naszych klientów monitoruje jakość swoich produktów wyszukując słowa najbardziej charakterystyczne dla skarg na źle załatwioną reklamację produktu). Elementem analizy automatycznej jest też grupowanie artykułów o podobnej strukturze – jeśli co najmniej dwa teksty podobne są do siebie w co najmniej w 30%, w systemie widać je jako połączone znaczkiem „+”, co widać na obrazku poniżej. Ułatwia to wynajdywanie na portalach tych wszystkich artykułów, które powstały na podstawie jednej i tej samej informacji prasowej – co z kolei ułatwia PR-owcowi ocenę najszybciej widocznego efektu jego pracy.

newspoint

Jednak z wszelkimi automatycznymi rozwiązaniami wiąże się niebezpieczeństwo błędów. Język nieustannie się zmienia, a zwłaszcza język potoczny, którym operują użytkownicy internetu. Ledwo tylko dane słowo upowszechni się poza grupę, która się nim pierwotnie posługuje, sama ta grupa wynajduje sobie nowe określenie (przykładem chociażby kariera słowa cool, które ze slangu młodzieżowego weszło do potocznego użycia,  tymczasem w slangu używano już wtedy kolejnego określenia, bodajże trendy). Kolejnych zmian w narzędziach wymagałaby każdorazowa zmiana komunikacji firmy o sobie, gdy dotychczasowa „wiodąca firma” nagle zaczęła się w swoich materiałach określać jako „lider”. Z tych dwóch powodów automat wymaga nieustannego doskonalenia, poprawiania. Do tego są słowa, które mają wiele różnych znaczeń, często zależnych od kontekstu wypowiedzi – jak automat jest w stanie wychwycić to, z którego kontekstu akurat skorzystał wypowiadający się? Pozostaje też ironia, czyli zamierzona odwrotność wypowiedzi – o czymś, co potępiamy, mówimy pozytywnie – i odwrotnie.

Dlatego Radian6 przy automatycznej analizie wydźwięku zostawił sobie otwartą furtkę – klasyfikację nadaną przez ich system użytkownik może zawsze ręcznie przeedytować.