6 x expose

Home / Datastorytelling / 6 x expose

6 x expose

W zeszłym tygodniu Beata Szydło wygłosiła expose. Ponieważ było to 6 wystąpienie premiera (nie liczę "drugiego" expose Tuska przy okazji votum zaufania) w czasach PiS-PO-PiS ciekawe może być sprawdzenie czy i czym się rożniły. Wprawdzie BiqData pokazały porównanie następnego dnia po wystąpieniu Szydło, ale zacząłem się zastanawiać czy nie dałoby rady znaleźć czegoś więcej w tych danych. Oceńcie, czy się udało. Gdy bierze się za temat już wcześnie opowiedziany, trzeba próbować pokazać coś nowego. Ponieważ nie pracuję w medium newsowym miałem chwilę więcej. Ale też nie miałem dostępu do narzędzia dedykowanego analizie tekstu (umawiałem się ludźmi, którzy mają większą niż ja wiedzę narzędziową, jednak w końcu nie mieli czasu). Zatem korzystałem z prostszych rozwiązań, ale w efekcie udało mi się osiągnąć mniej "maszynowy" efekt analizy. Lametyzacja (znaczy sprowadzenie do bezokolicznika i mianownika) jest zrobiona półautomatycznie np. zachowałem przymiotniki w stopniu najwyższym, ponieważ świadczą one o manierze językowej. Wyrzuciłem watę (np. partykuły), Dodatkowo arbitralnie połączyłem w jedno pojęcie różne części mowy używane do wyrażenia tego samej treści - np. plan i planować, ponieważ w zdecydowanej większości przypadków planuje się plan ;-).  I wreszcie wszystkie liczebniki oraz oznaczenia dat sprowadziłem do dwóch kategorii. Konsekwencja tego jest nie tylko arbitralność założeń, ale także to, że mogłem coś przeczyć. Druga istotną kwestią jest ograniczenie się do analizy opartej na pojedynczych słowach, a warto byłoby pokazać też powtarzalne związki frazeologiczne, czy długość oraz złożoność zdań. Tutaj jednak data mining przekraczałby moje kompetencje programistyczne. Co pokazuję? Po pierwsze, częstość używania poszczególnych pojęć (oczywiście Polska jest odmieniana powszechnie przez wszystkie przypadki). Możecie też sprawdzić jak często i  przez kogo są używane poszczególne słowa. Po drugie, specyfiki leksykalne poszczególnych wystąpień -  użycie poszczególnych słów (odsetek, ponieważ teksty równią się bardzo długością - Tusk w pierwszym niebezpiecznie zbliżył się do Fidela Castro), specyficzne słowa dla każdego z występujących. W wreszcie oddzielnie pokazuje użycie czasowników modalnych i czasów (w oparciu o czasownik być). Wszystko można oglądać/porównywać w przekrojach wg. kandydatów. No dobrze, to czas inforgrafikę:
Z tych danych można zrobić dużo więcej. Np. jak silnie w danym wystąpieniu była obecna konkretna tematyka (np. zdrowotna albo wojskowa). Jako mała próbka odpowiedź na niezadane pytanie, kto mówi dobrze po polsku na przykładzie złoty/złotówka :-):  
I na koniec. Oczywiście nie jest to porównanie stylu mówienia, a stylu ghost writterów. Poza Kaczyński rzecz jasna, ponieważ on mówi z głowy.
Recommended Posts

Leave a Comment

Contact Us

We're not around right now. But you can send us an email and we'll get back to you, asap.

Not readable? Change text. captcha txt

Start typing and press Enter to search