неумећем личним затечен, а потребом очепљен, да коментаре свое, кое током протекле деценије постирах по блогу,објединим , помоћ потражих, те до жељеног дођох умећем коментатора блоганам под ником sin_m, који, подуши добар, ево својим прилогом понуди начин како и други од блогера који сличне потребе имају то учине.ел ем, указује Поменути . . . .
. . . . како сам тражио (и нашао!) Черевићана
Немојте да вас наслов овог блога заведе на погрешан пут. Черевићана је у стварном животу лако наћи - ако знате где да га тражите. Цењеном читатељству овде ћу описати сличну, а опет различиту врсту потраге. Но, пођимо редом.Не тако давно поменути је решио да на једном месту прикупи своја овдашња блоговска јављања. Разлог? Припремају се сабрана дела,
а постираним главомрсима Черевићана могла би се испунити два подебља тома. Да су блоговска јављања и коментари уредно бележени „са стране" онако како су настајали, ни по јада. Довољно би било да Черевићан једном фајлу (или већем броју њих), уради copy-and-paste и материјал би се нашао где треба. Међутим, тако није чињено.Блогер није био баш најажурнији што се бележака тиче. Сви текстови блога јесу прибележени, али готово ништа од коментара није. Зато је Черевићан дошао на просту, али генијалну идеју: прекопати САВ материјал на блогу Б92 и издвојити текстове и коментаре на туђим блоговима. Кључна реч овде је „прекопати". С обзиром да се у компјутерском прекопавању наш блогер није баш вичан , обратио се мени као некоме ко би можда могао да помогне.Како ме компјутери 'лебом 'ране већ доста дуго, наравно, пристао сам да размотрим овај задатак и предложим могућа решења.Како се блоговски материјал вероватно држи у некој бази података, најједноставније би било приступити јој и направити један или више упита. Наравно, овим би проблем био решен када би информатичка служба сајта Б92 дозволила приступ њиховој бази података но овакво решење проблема г. Черевићана није могуће, С тога ми није остало друго него да применим решење кога сам се прибојавао: систематско скидање СВИХ текстова испод домена "blog.b92.net" и њихово просејавање у потрази за кључном речи "Черевићан".
За скидање садржаја веб сајта постоје многи готови програми. Коришћењем једног од њих, 19 гигабајта HTML датотека скинуто је после 6 дана. Разлог релативно спором скидању јесте овај: нисам хтео у потпуности да загушим „цев" која води ка блогу и тиме ризикујем могућу блокаду од стране сајта Б92. Зато сам се определио за мању брзину низтовара (download) података.
Просејавање овог брда података показало се као малко већи изазов. Пошто користим Линукс, прво сам сузио број датотека у којима се јавља Черевићан једноставном применом команде "grep". Све што је остало било је издвајање чланака које је написао Черевићан - како сопствене текстове, тако и коментаре на туђим блоговима. Све датотеке, по једну у реду, сместио сам у обичну текстуалну датотеку. Цео поступак детаљније је објашњен овде .
Да лепо издвојим чланке написао сам једноставан програм у језику Питон (Python). Све што програм ради јесте да редом чита датотеке поменуте у претходном одељку, налази јављања г. Черевићана и додаје их у посебну текстуалну датотеку. Сваки запис праћен је местом и временом (нађено тамо-и-тамо, тада-и-тада). С обзиром да је г. Черевићан прилично редован када је о јављању реч, као резултат добијена је датотека од скоро 300 мегабајта чистог текста (овде се налазе и чланци у којима је г. Черевићан поменут - на овај или онај начин) .
. . . . и тако ,оно народно, знање је моћ* , потврдило се и овај пут . Присећам се додуше да су сличне теме већ раније постиране на блогу б92 ,али од вишка их штете не може бити.