Domov Lastnosti Ti zagovorniki želijo zagotoviti, da naši podatki ne bodo izginili

Ti zagovorniki želijo zagotoviti, da naši podatki ne bodo izginili

Kazalo:

Video: Nowe przepisy podatkowe (November 2024)

Video: Nowe przepisy podatkowe (November 2024)
Anonim

Konec maja letos, natanko pet mesecev od ustanovitve 45. predsednika Združenih držav Amerike, je skupina ljudi, ki jih skrbi nova administracija do odnosa do znanosti in podnebnih sprememb, obeležila svojo posebno obletnico.

Nedaleč od kampusa Univerze v Severnem Teksasu, na ravnicah severno od Dallasa, se je v Data Rescue Denton zbralo več deset posameznikov, da bi prepoznali in prenesli kopije zveznih zbirk podatkov o podnebju in okolju. Ta srečanja v slogu hackatona so bila deležna veliko pozornosti v dneh pred otvoritvijo; Denton je bil od januarja že 50. tak dogodek.

Ker se sprva ne skrbi, da bi nova uprava lahko izbrisala ali prikrivala podatke o podnebnih in drugih okoljskih podatkih, se zdi, da se najhujši strahovi reševalcev podatkov uresničujejo, ko je bil eden od prvih ukrepov Trumpove Bele hiše brisanje strani o podnebnih spremembah s njene spletne strani. Nato se je ameriško ministrstvo za kmetijstvo, potem ko je s svojega spletnega mesta odstranilo poročila o inšpekciji za dobro počutje živali, odzvalo na prošnjo National Geographic Act of Freedom of Information, na kateri je bilo 1.771 strani v celoti urejenega gradiva.

Vsakdo lahko prek centralnega vladnega portala z odprtimi podatki na data.gov dostopi do več kot 153.000 zveznih zbirk podatkov. A to je le delček podatkov, ki obstajajo v meglici vladne birokracije, ne glede na še manjši delček, ki je na strežniku.

"Nekje okoli 20 odstotkov vladnih informacij je dostopnih po spletu, " je dejal Jim Jacobs, knjižničar za zvezne vlade v univerzitetni knjižnici Stanford. "To je dokaj velik kos stvari, ki ni na voljo. Čeprav imajo agencije lastne wikije in sisteme za upravljanje vsebine, se za nekatere od njih zvedete le, če jih nekdo FOIA."

Zagotovo je bilo zajetih veliko informacij in zdaj prebivajo na nevladnih strežnikih. Med dogodki Refuge Data Refuge in projekti, kot je Craw-End-of-Term 2016, je bilo arhiviranih več kot 200TB vladnih spletnih strani in podatkov. Toda organizatorji reševanja so se začeli zavedati, da kosovnih prizadevanj za izdelavo popolnih kopij terabajtov podatkov o vladnih agencijah resnično ni mogoče dolgoročno ohraniti - to bi bilo kot izlivanje Titanika z natikačem.

Čeprav se je Data Rescue Denton končal kot eden izmed zadnjih organiziranih tovrstnih dogodkov, je skupno prizadevanje spodbudilo širšo skupnost, da bi skupaj delovala v smeri, da bi bili več vladnih podatkov odkriti, razumljivi in ​​uporabni, je v svoji objavi na blogu zapisal Jacobs.

Pogled v knjižnice

Na Univerzi v Pensilvaniji je Bethany Wiggin direktorica Pennovega programa za okoljske humanistike, kjer je bila osrednja v gibanju Data Refuge, ki je pobudnica dogodkov Data Rescue. Fokus se je zdaj premaknil k uporabi nacionalnih okvirov za dolgoročne napore, namesto lokalnim, periodičnim epizodam.

"Spoznali smo veščine, ki se pojavljajo na različnih krajih, in pri dogodkih reševalnih podatkov nekaj, kar je mogoče spremeniti, " je dejal Wiggin, zlasti v raziskovalnih knjižnicah. "Toda vsa ta prizadevanja so se dogajala, preden smo se začeli. Moč programa Data Refuge je bila zgostiti te povezave; katalizirati dolgotrajne, počasne projekte in prikazovati, kako pomembni so."

Wiggin v zadnjem času pomaga pri vodenju knjižnic + Network, nastajajočega partnerstva raziskovalnih knjižnic, knjižničnih organizacij in skupin z odprtimi podatki, ki so katalizirale razširitev tradicionalne vloge knjižnic pri ohranjanju dostopa do informacij. Udeleženci vključujejo raziskovalno knjižnico univerze Stanford, kalifornijsko digitalno knjižnico in fundacijo Mozilla, pri čemer sodelujejo subjekti v širokem obsegu, kot so Nacionalni arhiv in glavni vodje podatkov iz zveznih uradov.

En projekt, na primer, je LOCKSS ("veliko kopij ohranja stvari varno"), ki ga Jacobs že nekaj let usklajuje. Temelji na istem principu kot 200-letna mreža knjižnic, znana kot Federalni knjižnični program; te knjižnice so uradne zbirke publikacij ameriške vladne tiskarske službe (GPO).

LOCKSS je nasprotno zasebna digitalna različica tega sistema, ki doslej je sestavljena iz 36 knjižnic, ki z njenim sodelovanjem zbirajo publikacije iz GPO. To je model, kako je mogoče digitalne informacije zaščititi pred izbrisom ali nedovoljenimi posegi s široko fizično razpršitvijo.

"Ne morete zagotoviti hrambe, če nimate nadzora nad vsebino, " je dejal Jacobs. "Del teh pomembnih in uporabnih knjižnic v zadnjih 200 letih je bil, da nihče v vladi ni mogel urediti dokumenta, ne da bi dejansko šel v 1.500 knjižnic in rekel:" Ja, tukaj spremenite eno stran."

Programska oprema LOCKSS uporablja preverjanje predpomnilnikov vsebine na bitni ravni in jo primerja z vsebino, ki jo hranijo druge knjižnice, kar Jacobs pravi, da pomaga zagotoviti dolgoročno hrambo s popravilom degradiranih datotek.

John Chodacki, še en sodelavec mreže Libraries +, je direktor kustosa za kalifornijsko digitalno knjižnico, virtualno informacijsko napravo, ki oskrbuje vseh 10 kampusov sistema kalifornijske univerze. Chodacki pravi, da sta se osredotočila na uporabo data.gov kot dvosmerne ulice v sodelovanju z razvijalcem Code for Science and Society Maxom Ogdenom in Philippom Ashlockom, glavnim arhitektom pri data.gov.

Najprej so dokazali, da bi bilo samo shranjevanje podatkov lahko veliko učinkovitejše, če sami zabeležimo kopijo data.gov in jo postavimo na zunanje spletno mesto, datamirror.org, z nadzornimi skripti, ki preverjajo, ali obstajajo posodobitve. Nato so Chodacki in sodelavci tudi začeli gledati, ali lahko prispevani nabori podatkov in metapodatki v ogledalo vstopijo v obstoječe delovne tokove agencij preko delovnih strani v zrcalu.

V skladu z izvršnim ukazom Obame iz leta 2013, ki nalaga objavo strojno berljivih podatkov na data.gov, bi agencije še vedno bile odgovorne za ustvarjanje zapisov, ki so navedeni na tem portalu; Ideja Chodackija in Ogdena je, da množično predlagani nabor podatkov preprosto pomaga pri širjenju delovne obremenitve.

"Ni nam treba ponoviti celotnega ekosistema, " je dejal Chodacki. "Zvezna vlada in te agencije se s podatki ukvarjajo precej dlje, kot je bilo o velikih podatkih govoriti nesposobno, in sicer na veliko bolj robusten način kot kdo drug."

Javno-zasebna partnerstva

Vprašanje stroškov je očitno, ko gre za to, kako agencije lahko ugotovijo, kateri nabori podatkov so najbolj dragoceni za javnost, nato pa prek vladnega portala objavijo povezave do svojih metapodatkov ali dejanskih nizov podatkov. Poročilo Kongresnega urada za proračun (CBO) za predlog zakona o vladnih podatkih o OPEN, ki je trenutno v senatu - ki bi kodificiral Obamov izvršni red v zakon - ocenjuje, da bi njegovo popolno izvajanje med letoma 2018 in 2021 stalo dva milijona dolarjev.

V denarnem smislu to pomeni, da v bistvu ni nobenega resničnega povečanja porabe, je zaključil CBO.

Učinkovitost pa je drugačno vprašanje, s katerim eksperimentira Ed Kearns iz Nacionalne uprave za oceane in atmosfero skupaj z zasebnimi partnerji, vključno z Amazon Web Services in Google. Kearns, glavni vodja podatkov NOAA, je dejal, da sta večja dostopnost javnosti in uporaba podatkov NOAA glavni cilj projekta Big Data.

Podjetja določijo, katere naloge podatkov želijo, in NOAA jih brez dodatnih stroškov posreduje javnosti. Kearns je dejal, da ima NOAA vse, kar je na voljo, toda cilj petletnega partnerstva ni, da se vsi podatki NOAA odstranijo v oblaku - le strateški kosi.

Gostovanje takšnih nizov podatkov v oblačnih storitvah zasebnih podjetij ponuja številne prednosti dostopa do FTP v stilu 80-ih, ki je še vedno standard za prenos velikih nizov podatkov iz zveznih agencij. Za začetek je nabora podatkov NOAA običajno ogromno - agencija spremlja zemeljske oceane, ozračje, sonce in vesoljske vremenske razmere - in včasih potrebujejo tedne ali mesece za javno dostavo.

En primer je arhiv radarjev z visoko ločljivostjo NEXRAD nivoja II II Dopplerjev. Glede na študijo, ki jo je maja objavilo Ameriško meteorološko društvo, bi prenos celotnega 270-terabajtnega arhiva NEXRAD enemu odjemalcu oktobra 2015 trajal 540 dni na 203.310 dolarjev. Celotna kopija arhiva ni bila nikoli na voljo za zunanjo analizo, preden je NOAA sodelovala z Amazonom in Googlom, da bi ga postavila v oblak.

Poskus je imel tudi nekaj zanimivih zgodnjih rezultatov s povečanjem uporabe. Spletne strani NOAA za vremenske napovedi in napovedovanje že prejemajo nekaj najvišje stopnje prometa med vladnimi spletnimi mesti, a potem ko je Google v svojo bazo podatkov BigQuery nedavno integriral en nabor podatkov o podnebnih in vremenskih razmerah, približno približno velik, je podjetje poročalo, da je dobavilo 1, 2 petabajtov tega nabora podatkov od 1. januarja do 30. aprila - veliko več kot doslej do njih v podobnem časovnem okviru od strežnikov NOAA.

"Google ga je lahko odprl povsem novemu občinstvu, " je dejal Kearns.

Ne gre samo za dež in sezonske temperature. Skupine podatkov, ki so zdaj na voljo prek partnerjev Big Data, vključujejo informacije o ribištvu, morsko vreme in katalog, ki ga gosti IBM, ki navaja trenutne, napovedne, zgodovinske in geoprostorske naloge podatkov iz NOAA centrov. Prihodnji nabor podatkov bi lahko vključeval celo podatke o ekosistemih in ribiški genomiki.

Toda po načrtu partnerstvo omogoča sodelavcem, da sami izberejo tisto, kar si najbolj želijo, kar pomeni tveganje, da prikriti, a hkrati potencialno visoki nabori podatkov ne bodo videli veliko dnevne svetlobe. Kearns pravi, da je še prezgodaj govoriti, kaj lahko sčasoma prepoznamo kot dragoceno.

"Obseg in doseg tega, kar lahko storimo s temi podatki, nas osupne, " je dodal. "Ne predstavljamo si vseh možnih uporab."

Mesto Filadelfija je v manjši meri sodelovalo tudi z zasebnim subjektom pri objavljanju naborov podatkov, za katere je javnost dejala, da bi se jim zdelo najbolj koristno. Čeprav velikost mesta daje vsakodnevno operativno manevriranje kot zvezni subjekt, Phillyjev model predstavlja en pristop za strateško načrtovanje izdaj še neobjavljenih nizov podatkov.

Azavea, Phillyjevo programsko podjetje, specializirano za vizualizacijo podatkov, je sodelovalo z glavnim mestnim direktorjem za informacije, Timom Wisniewskim, da bi pripravilo seznam neobjavljenih nabora podatkov, ki bi jih lahko neprofitne organizacije v mestu zanimale. Wisniewski in Azavea sta za oblikovanje seznama uporabila mestni spletni katalog metapodatkov in prispevek mestnih oddelkov. Azavea in drugi partnerji so nato seznam oddali v neprofitne organizacije Philadelphia in sprožili OpenDataVote, natečaj za javnost, da glasuje o projektih, ki jih ti neprofitni organi predlagajo, kako bodo uporabili svoje najljubše nabore podatkov.

Nedavni zmagovalec je bil predlog neprofitne organizacije MicroSociety, da se za merjenje učinka neprofitnih programov v šolah uporabijo podatki o donatorjih v šolskem okrožju Philadelphia.

"Lahko rečemo, da je ta mestna neprofitna organizacija zainteresirana za določen nabor podatkov, ker lahko z njo nekaj storijo in da je veliko ljudi glasovalo za njihovo podporo, " je dejal Wisniewski. "Omogoča nam, da gremo na oddelke s trdnim primerom uporabe, namesto da rečemo, hej, te podatke izpustimo samo zato."

Stari podatki in novo

Toda kaj se zgodi, ko je že veliko dostopa do podatkov, ko nove politike in direktive o financiranju pomenijo, da se ti podatki samo ne ustvarjajo več? To je resnično zaskrbljujoče, je dejala Ann Dunkin, ki je pri predsedniku Obami opravljala funkcijo glavnega informacijskega direktorja Agencije za varstvo okolja in zdaj vodi informacijsko tehnologijo za kalifornijsko okrožje Santa Clara.

"Ljudje so zaskrbljeni zaradi starih podatkov, najbolj pa me skrbi, da novih podatkov ne bodo dali na voljo z enako hitrostjo kot prej ali pa sploh ne bodo ustvarjeni, " je dejal Dunkin.

V eni analizi predlaganega zveznega proračuna za leto 2018, ki jo je objavila revija Science, bi številne vladne agencije dosegle znatno zmanjšanje svojih proračunov za raziskave, če bi proračun sprejel, kot je bilo predlagano. Približno 22-odstotno zmanjšanje na Nacionalnem inštitutu za zdravje bi pomenilo plačila raziskovalnim univerzam; Nasina proračunska zahteva bi odpravila pobude za spremljanje emisij toplogrednih plinov in druge zemeljske znanstvene programe. Podobne stopnje zmanjšanja bi lahko zajeli tudi podnebni programi NOAA.

V času svojega mandata si je EPA prizadevala, da bi svoje zbiranje podatkov pretvorila v orodje, s katerim lahko vsakdo razume zdravje svoje okolice in kako na to reagirati. Slab zračni dan? Ne pojdite zunaj. Potočite po onesnaženi poti? Otroke hranite stran.

"Moje pričakovanje je, da se bo premaknilo nazaj, " je dodal Dunkin. "Mogoče se motim, toda če pravite, da ne bomo dali podatkov na voljo, je logičen zaključek naborov podatkov, ki bi lahko pomagali članom javnosti, da ne bodo na voljo ali sploh ne bodo ustvarjeni."

Wiggin Data Refuge dela na projektu pripovedovanja zgodb, ki je povezan s tem vprašanjem, za katerega upa, da bo več ljudi spodbudilo, da bodo zahtevali sprostitev podatkov, in ustvaril temeljno podporo za nadaljevanje obstoječih programov zbiranja podatkov v celotni zvezni vladi. V pripovedih "Tri zgodbe v našem kraju" bodo prikazani pogosto skriti vplivi zveznih podatkov na nepričakovanih krajih, najprej v Filadelfiji, nato pa tudi v drugih krajih po državi.

"Ključni del gibanja Data Refuge, ko prehajamo na naslednjo fazo, ljudem pomaga razumeti, kako široko se uporabljajo podatki, ki jih izdelujejo v zvezni državi, " je dejal Wiggin. "Ne glede na to, ali to imenujemo podnebje ali zdravje ali javna varnost, še vedno gre za zvezne podatke. To je v skupnostih, v mestni hiši, policijskih prizadevanjih, v vojski. Spomniti se moramo, kako pomembni so ti podatki."

Viri:

  • Okoljevarstveni prehod EPA o okolju: portal metapodatkov Agencije za varstvo okolja.
  • Odprti podatki @ DOE: portal odprtih podatkov ministrstva za energijo.
  • Portal podatkov podatkov o storitvah USDA Economic Research Service
  • Viri velikih podatkov NOAA: Povezave do spletnih strani platforme velikih podatkovnih partnerjev, ki gostijo podatke, ustvarjene z NOAA.
  • University of North Texas: Cyber ​​Cemetery: arhiv propadlih, zastarelih ali zaprtih vladnih spletnih mest.
  • Stran s projektom Arhiviranje okoljskih podatkov in upravljanja: Orodja, koda in aplikacije, povezane z odkrivanjem in arhiviranjem vladnih podatkov.
  • Internetni arhiv Wayback Machine
  • Internetni arhiv: Kako shraniti strani v napravi za vračanje podatkov: šest načinov za imenovanje strani za arhiviranje.
  • Kalifornijska digitalna knjižnica: spletni arhiv ob koncu termina: zbirka spletnih strani vlade ZDA, shranjena iz pajkov End-of-Term, od leta 2008 do danes.
  • FreeGovInfo.info: Široka vsebina z informacijami o podatkovnih portalih na državni in zvezni ravni ter arhivi novic o odprtih podatkih.
  • Klimatsko ogledalo: Zbirka prostovoljnih zbranih klimatskih podatkov.

Ta zgodba se je prvič pojavila v PC Magazine Digital Edition. Naročite se danes za bolj izvirne zgodbe o igrah, novice, preglede in navodila

Ti zagovorniki želijo zagotoviti, da naši podatki ne bodo izginili