REZUMAT: |
Varianta epub disponibilă pe http://www.editura.ubbcluj.ro/bd/ebooks/epub/Data-mining-pentru-stiintele-sociale.epub
Pentru vizualizarea variantei epub recomandăm utilizarea softului gratuit calibre (https://calibre-ebook.com/).
NOTĂ: Lucrarea conține GIF-uri animate vizibile doar pe varianta epub.
linkul spre datele asociate volumului: https://s.go.ro/4wuee6d7, password: 848005
Mai mult decât oricând, lumea de azi este o lume a datelor. Multe dintre activitățile realizate de oameni (direct sau indirect, prin intermediul mașinilor) produc date, o tot mai mare parte a acestora fiind stocate și analizate. Creșterea volumului datelor din societate actuală este în mare măsură și rezultatul multiplicării exponențiale a surselor care produc continuu date (datafication): largi colecții de documente care sunt digitalizate, social media, aplicații web, motoare de căutare, comerț electronic, platforme profesionale, platforme de crowdsourcing, colecții de informații cu privire la schimburile social-economice și interacțiunile dintre oameni, locuri și organizații, sateliți, drone, camere de supraveghere, senzori, dispozitive, aparate și servicii de uz cotidian interconectate (IoT = Internet of Things, adică Internetul Obiectelor), etc. Tot mai multe aspecte ale vieții oamenilor sunt digitalizate. Deoarece costurile asociate acestui proces continuă să scadă, e foarte probabil ca tendința să continue.
Toate aceste date pot și sunt folosite pentru a fundamenta și orienta deciziile instituționale. Însă, fără date de calitate, analizele de data mining realizate pot fi lipsite de utilitate, respectiv pot direcționa greșit resursele instituționale. Deși poate părea ciudat, cea mai mare parte a timpului necesar pentru realizarea unui proiect de data mining este în fapt destinat pregătirii datelor pentru analiză. Aproximativ 80% din timpul total este alocat pentru realizarea unor activități precum importarea, curățarea, vizualizarea, restructurarea și sumarizarea datelor. Pe lângă faptul că pregătirea datelor consumă foarte mult timp, este considerată a fi și etapa cea mai plictisitoare și, uneori, etapa cea mai puțin importantă. Prin urmare există riscul ca pregătirea datelor să fie realizată „în fugă” și/sau atribuită către persoane mai puțin calificate. Lucrurile nu ar trebui să stea deloc așa, pregătirea datelor reprezentând fundamentul pe care urmează să fie construiți pașii următori ai unui proiect de data mining. În acest context, RapidMiner Studio reprezintă un instrument extrem de util oricărui analist.
Dacă ar trebui să descriem programul RapidMiner Studio în cât mai puține cuvinte, am putea spune simplu „sintaxă vizuală”. RapidMiner Studio are o interfață grafică (GUI) cu ajutorul căreia întreg procesul de data mining poate fi definit interactiv, simplu, doar prin realizarea unor serii de operații de tip drag&drop, adică prin selectarea și conectarea unor operatori / comenzi predefinite. Niciunul dintre pași nu necesitată cunoașterea unor elemente de programare, deși, cei care doresc pot face acest lucru. Mai mult, dacă dorim, etapele de pregătire a datelor și de modelare pot fi realizate automatizat. Pe scurt, RapidMiner Studio îndeplinește câteva condiții majore ale unui soft de analiză de data mining: (1) este intuitiv și ușor de utilizat, (2) face posibile reproductibilitatea și reutilizarea analizelor, (3) poate analiza date de diferite tipuri (structurate și nestructurate; date, text și imagine), (4) poate rula foarte multe tipuri de modele, (5) oferă posibilitatea de automatizare a proceselor de pregătire și modelare a datelor, (6) poate interacționa cu și rula comenzi scrise în alte programe / limbaje (Python, R, SQL).
|