• albiste_bandera

Zerbitzua

Spark Streaming datuak garbitzeko mekanismoa
(I) DStream eta RDD
Dakigunez, Spark Streaming konputazioa Spark Core-n oinarritzen da, eta Spark Core-ren muina RDD da, beraz, Spark Streaming RDD-rekin ere erlazionatu behar da.Hala ere, Spark Streaming-ek ez die erabiltzaileei RDD zuzenean erabiltzen uzten, baina DStream kontzeptuen multzo bat abstraitzen du, DStream eta RDD erlazio inklusiboak dira, Javan dekorazio eredu gisa uler dezakezu, hau da, DStream RDD-ren hobekuntza da, baina portaera RDDren antzekoa da.
DStream eta RDD biek hainbat baldintza dituzte.
(1) antzeko eraldatze ekintzak dituzte, hala nola map, reduceByKey, etab., baina baita bereziak ere, hala nola, Window, mapWithStated, etab.
(2) guztiek ekintza ekintzak dituzte, hala nola foreachRDD, count, etab.
Programazio eredua koherentea da.
(B) DStream-en sarrera Spark Streaming-en
DStream-ek hainbat klase ditu.
(1) Datu-iturburuko klaseak, adibidez, InputDStream, DirectKafkaInputStream bezalako espezifikoak, etab.
(2) Bihurketa klaseak, normalean MappedDStream, ShuffledDStream
(3) irteerako klaseak, normalean ForEachDStream adibidez
Aurrekotik, hasieratik (sarrera) amaierara (irteera) datuak DStream sistemak egiten ditu, hau da, erabiltzaileak normalean ezin ditu RDD zuzenean sortu eta manipulatu, hau da, DStream-ek aukera eta betebeharra du. RDDen bizi-zikloaren arduraduna.
Beste era batera esanda, Spark Streaming-ek badugarbiketa automatikoafuntzioa.
(iii) Spark Streaming-en RDD sortzeko prozesua
Spark Streaming-en RDD-en bizi-fluxua latza da honela.
(1) InputDStream-en, jasotako datuak RDD bihurtzen dira, adibidez, DirectKafkaInputStream, KafkaRDD sortzen duena.
(2) ondoren, MappedDStream eta beste datu-bihurketa batzuen bidez, oraingo hau zuzenean RDD deitzen da bihurtzeko mapa-metodoari dagokiona.
(3) Irteerako klaseko eragiketan, RDD agerian dagoenean soilik, erabiltzaileari dagozkion biltegiratzea, beste kalkulu batzuk eta beste eragiketak egiten utzi diezaiokezu.