Rettsinfo
  • Portal
  • Søk
    v
  • Min konto
  • Logg på
  • Marcdata
  • RIS
  • Referanse
Tittel:Computing remote sensing big data using local hardware and open-source software packages
Ansvar:Misganu Debella-Gilo og Jonathan Rizzi
Forfatter:Debella-Gilo, Misganu / Rizzi, Jonathan
Materialtype:Artikkel - elektronisk
Signatur:Kart og plan
Utgitt:Bergen : Universitetsforlaget, 2021
Omfang:S. 254–273
ISBN/ISSN:0447-3278
Serie:Kart og plan ; 3-4/2021
Emneord:Digitalisering / Vitenskapelig publikasjon
Innhold:Sammendrag
Det er verken volum- eller hastighetsbegrensninger som definerer stordata. All data som strekker seg fra like utenfor kapasiteten til en enkelt personlig datamaskin til tera- og petabyte med data kan betraktes som stordata. Selv om det er vanlig å bruke High Performance Computing (HPC) og skytjenester for å gjøre beregninger på stordata, er det ikke alltid praktisk å migrere til slike infrastrukturer av ulike grunner, spesielt for middels/små analyser. Personlige datamaskiner ved offentlige institusjoner og private bedrifter er ofte ikke i bruk deler av dagen og hele natten. Utnytting av slike beregningsressurser kan delvis redusere behovet for HPC og skytjenester for stordataanalyse hvor HPC og skytjenester ikke er umiddelbare alternativer. Dette er særlig relevant også ved testing og pilotimplementering på HPC eller skytjenester. I denne artikkelen viser vi et reelt tilfelle av bruk av et lokalt nettverk av datamaskiner som bruker åpen-kildekode programvarepakker konfigurert for distribuert prosessering av store fjernmålingsdata. Sentinel-2 bildetidsserier brukes for testing av det distribuerte systemet. Den normaliserte vegetasjonsindeksen (NDVI) og månedlige median bånd-verdier er variablene som beregnes for å teste og evaluere praktikaliteten og effektiviteten til den distribuerte klyngen. Beregningseffektiviteten til klyngen testes og evalueres med hensyn til forskjellig klyngeoppsett, forskjellige datakilder og forskjellig datafordeling. Resultatene demonstrerer at den foreslåtte klyngen av lokale datamaskiner er effektiv og praktisk for å prosessere fjernmålingsdata hvor enkeltstående personlige datamaskiner ikke kan utføre beregningen. Nøye konfigurasjon av datamaskinene, det distribuerte rammeverket, og dataene er viktige aspekter som må tas hensyn til ved optimalisering av effektiviteten til et slikt system. Denne løsningen vil, hvis riktig implementert, føre til en effektiv bruk av datamaskinene, og tillate prosessering av store fjernmålingsdata uten å trenge å migrere til større infrastrukturer som HPC og skytjenester, unntatt når man skal implementere produksjon og bruk i stort omfang.

Abstract
There are neither volume nor velocity thresholds that define big data. Any data ranging from just beyond the capacity of a single personal computer to tera- and petabytes of data can be considered big data. Although it is common to use High Performance Computers (HPCs) and cloud facilities to compute big data, migrating to such facilities is not always practical due to various reasons, especially for medium/small analysis. Personal computers at public institutions and business companies are often idle during parts of the day and the entire night. Exploiting such computational resources can partly alleviate the need for HPC and cloud services for analysis of big data where HPC and cloud facilities are not immediate options. This is particularly relevant also during testing and pilot application before implementation on HPC or cloud computing. In this paper, we show a real case of using a local network of personal computers using open-source software packages configured for distributed processing to process remotely sensed big data. Sentinel-2 image time series are used for the testing of the distributed system. The normalized difference vegetation index (NDVI) and the monthly median band values are the variables computed to test and evaluate the practicality and efficiency of the distributed cluster. Computational efficiencies of the cluster in relation to different cluster setup, different data sources and different data distribution are tested and evaluated. The results demonstrate that the proposed cluster of local computers is efficient and practical to process remotely sensed data where single personal computers cannot perform the computation. Careful configurations of the computers, the distributed framework and the data are important aspects to be considered in optimizing the efficiency of such a system. If correctly implemented, the solution leads to an efficient use of the computer facilities and allows the processing of big, remote, sensing data without the need to migrate it to larger facilities such as HPC and cloud computing systems, except when going to production and large applications.

Keywords:
Dask
Xarray
NetCD
Distributed computing
Sentinel-2
Del av verk:Kart og plan 3-4/2021

Vedlegg:- Juridika
- Idunn