<h2 style="font-style:italic;">Apache Spark et LSST</h2>

<h3 style="color:#aaa; font-style:italic;">Nouvelles du r&eacute;seau Spark</h3>

<p>Comme mentionn&eacute; pr&eacute;c&eacute;demment, Christian Arnault prend la suite de Julien Nauroy comme animateur de la communaut&eacute; Spark d&#39;Orsay, et des r&eacute;unions bimestrielles associ&eacute;es.</p>

<p>Ces activit&eacute;s sont associ&eacute;es &agrave; un Equipement de Recherche Mutualis&eacute; (ERM) et des Moyens de Recherche Mutualis&eacute;s (MRM), sources de financement destin&eacute;es respectivement &agrave; l&#39;achat de mat&eacute;riel et au financement de personnels et de missions. Le budget de ces entit&eacute;s est de l&#39;ordre de 100 k&euro;.</p>

<p>Christian utilise ces moyens pour monter une infrastructure de recherche sur Spark, qui regroupe des personnes de milieux tr&egrave;s h&eacute;t&eacute;rog&egrave;nes comme des physiciens, des informaticiens, et des biologistes. Cela soul&egrave;ve des probl&eacute;matiques de communication tr&egrave;s int&eacute;ressantes.</p>

<p>Une &eacute;cole de Spark est en cours de pr&eacute;paration. Elle se d&eacute;roulera en deux jours, plus ou moins &eacute;galement r&eacute;partis entre pr&eacute;sentations et TDs. Christian est actuellement en train de chercher des intervenants et de constituer le programme, il y aura &agrave; priori de la place pour int&eacute;grer des &eacute;tudiants allant au-del&agrave; de la communaut&eacute; LoOPS.</p>

<p>Il n&#39;y a pas vraiment de communaut&eacute; Spark fran&ccedil;aise actuellement, par contre les r&eacute;seaux internationaux sont bien d&eacute;velopp&eacute;s, et donnent acc&egrave;s &agrave; des infos sur les nouveaut&eacute;s logicielles, ainsi que les conf&eacute;rences et formations se montant un peu partout dans le monde.</p>

<p>Il existe une collaboration existante entre VirtualData et des &eacute;quipes de l&#39;Institut des Syst&egrave;mes Complexes de Paris et de l&#39;IGN. Christian pense qu&#39;il serait pertinent de l&#39;int&eacute;grer &agrave; l&#39;ERM.</p>

<p>A plus grande &eacute;chelle, Christian essaye aussi, depuis les JI, de lancer une r&eacute;flexion sur Spark et ses domaines d&#39;application &agrave; l&#39;IN2P3.</p>

<h3 style="color:#aaa; font-style:italic;">Calcul dans LSST</h3>

<p>Christian participe aussi &agrave; la refonte actuelle du mod&egrave;le de calcul LSST, qui &eacute;tudie des opportunit&eacute;s de parall&eacute;lisation au-del&agrave; de leurs prototypes s&eacute;quentiels actuels. Guy s&#39;interroge sur la capacit&eacute; de ce mod&egrave;le &agrave; g&eacute;rer des sc&eacute;narios de visualisation. Apparemment, le mod&egrave;le ne sera pas optimis&eacute; pour minimiser la latence temps r&eacute;el, mais plut&ocirc;t pour maximiser le flux de donn&eacute;es traitable.</p>

<p>Christian a aussi explor&eacute; un binding pour l&#39;int&eacute;gration de MongoDB comme couche de stockage des donn&eacute;es. Pour rappel, Apache Spark fonctionne en d&eacute;composant les donn&eacute;es &agrave; traiter en blocs, qui sont distribu&eacute;s de fa&ccedil;on redondante sur le cluster de calcul : on parle de &quot;Resident Distributed Dataset&quot; ou RDD. Cette d&eacute;composition suppose une certaine connaissance du format de donn&eacute;es sous-jacent. Spark supporte nativement les fichiers textes et un certain nombre de donn&eacute;es tabul&eacute;es, mais l&#39;int&eacute;gration MongoDB apporte le support de BSON, un format binaire qui permet de bien meilleures performances de calcul et de stockage dans le cas courant o&ugrave; les machines du cluster ont une architecture mat&eacute;rielle similaire.</p>

<p>Cette int&eacute;gration s&#39;effectue au niveau d&#39;Avro, le composant Spark responsable des probl&eacute;matiques de s&eacute;rialisation. Ce composant est assez souple pour g&eacute;rer des donn&eacute;es h&eacute;t&eacute;rog&egrave;nes, comme par exemple un fichier texte contenant du JSON, et il y a eu une pr&eacute;sentation &agrave; CHEP d&#39;un binding Avro permettant la manipulation de fichiers ROOT avec Spark.</p>

<p>Guy rappelle que pour tirer profit du parall&eacute;lisme, il faut que le traitement de donn&eacute;es que l&#39;on effectue s&#39;y pr&ecirc;te. Par exemple, on peut a priori d&eacute;composer le traitement d&#39;une image en blocs ind&eacute;pendants, ou le traitement d&#39;un jeu de donn&eacute;es HEP en &eacute;v&eacute;nements ind&eacute;pendants, mais en pratique il y a toutes sortes de probl&eacute;matiques suppl&eacute;mentaires &agrave; g&eacute;rer (recouvrement des blocs, conditions...) qui peuvent dans des cas graves d&eacute;truire l&#39;efficacit&eacute; du calcul parall&egrave;le.</p>

<p>Ce genre de questions a &eacute;t&eacute; explor&eacute;e &agrave; Strasbourg, o&ugrave; un syst&egrave;me de cross-matching permettant de comparer des donn&eacute;es c&eacute;lestes issues de plusieurs catalogues de ciel (et donc de plusieurs instruments) a &eacute;t&eacute; port&eacute; vers Spark. Le probl&egrave;me de cross-matching n&#39;a rien d&#39;&eacute;vident: il faut par exemple g&eacute;rer les transformations de coordonn&eacute;es entre instruments, et le suivi d&#39;objets c&eacute;lestes sur des p&eacute;riodes de temps tr&egrave;s longues. Mais en pratique, le code r&eacute;sultant passe bien &agrave; l&#39;&eacute;chelle dans le sc&eacute;nario o&ugrave; l&#39;&eacute;quipe l&#39;a test&eacute;, c&#39;est &agrave; dire une ex&eacute;cution sur des ressources cloud Amazon EC2. Ces ressources sont plus rentables et performantes pour l&#39;&eacute;quipe de Strasbourg que le maintien d&#39;un cluster local, mais il a &eacute;t&eacute; mentionn&eacute; qu&#39;une comparaison plus juste reste &agrave; effectuer avec les moyens Spark du CCIN2P3.</p>

<p>Guy et Christian travaillent &eacute;galement avec R&eacute;za Ansari, un enseignant-chercheur du LAL qui contribue &agrave; LSST. Ce dernier a mis au point en freelance, bien avant LSST, un framework C++ d&#39;analyse de donn&eacute;es orient&eacute; astrophysique qui est comparable par certains points &agrave; ROOT, <a href="http://www.sophya.org">Sophya</a>.</p>

<h3 style="color:#aaa; font-style:italic;">Formats de donn&eacute;es</h3>

<p>Le format de donn&eacute;es traditionnel de la communaut&eacute; de l&#39;astronomie est le FITS. Ce dernier poss&egrave;de une sp&eacute;cification publiquement accessible et des impl&eacute;mentations libres, qui permettent de d&eacute;coder facilement les en-t&ecirc;tes et donn&eacute;es de fichiers provenant de toutes sortes d&#39;exp&eacute;riences astronomiques.</p>

<p>Pour encore plus d&#39;interop&eacute;rabilit&eacute;, l&#39;observatoire virtuel IVOA travaille &agrave; homog&eacute;n&eacute;iser les sch&eacute;mas de donn&eacute;es utilis&eacute;s par diff&eacute;rentes exp&eacute;riences, afin de s&#39;assurer par exemple que les en-t&ecirc;tes et colonnes de tables suivent des convention de nommages communes. Il s&#39;agit en r&eacute;alit&eacute; d&#39;une activit&eacute; tr&egrave;s ancienne, puisque la communaut&eacute; scientifique tient des catalogues d&#39;astronomie depuis plusieurs si&egrave;cles, o&ugrave; ces probl&eacute;matiques se sont pos&eacute;es tr&egrave;s t&ocirc;t.</p>

<p>Les avantages pratiques d&#39;une telle standardisation, dont on r&ecirc;ve encore en physique des particules, sont &eacute;vidents. Par exemple, dans le cadre de ses enseignements pour le master NPAC, Christian a fait travailler ses &eacute;tudiants sur des programmes qui, bien que tr&egrave;s simples, sont capables de manipuler des donn&eacute;es d&#39;astronomie r&eacute;elles au moyen de biblioth&egrave;ques standardis&eacute;es. Ce serait impossible &agrave; envisager dans d&#39;autres domaines.</p>

<p>Il y a eu pas mal de discussions sur HDF5, format binaire g&eacute;n&eacute;raliste aujourd&#39;hui tr&egrave;s r&eacute;pandu, et qui pourrait &agrave; terme remplacer le FITS en astrophysique. Ce format pourrait notamment g&eacute;rer des NTuples comparables &agrave; ceux de ROOT, permettant la persistence d&#39;objets arbitraires.</p>

<p>Une diff&eacute;rence avec ROOT, toutefois, est que les biblioth&egrave;ques HDF5 ne peuvent pas g&eacute;n&eacute;rer automatiquement du code de s&eacute;rialisation pour une classe C++ arbitraire. Mais est-ce vraiment d&eacute;sirable? Ne devrait-on pas, de toutes fa&ccedil;ons, passer du temps &agrave; r&eacute;fl&eacute;chir &agrave; son format de donn&eacute;es sur disque et concevoir un sch&eacute;ma de donn&eacute;es adapt&eacute; &agrave; la persistence et au calcul?</p>

<h3 style="color:#aaa; font-style:italic;">Autres discussions</h3>

<p>Christian a r&eacute;cemment d&eacute;couvert que la soci&eacute;t&eacute; Databricks travaille sur l&#39;utilisation de GPUs dans des programmes Spark. Leur activit&eacute; est tr&egrave;s centr&eacute;e sur le deep learning, avec notamment l&#39;int&eacute;gration de la biblioth&egrave;que TensorFlow, mais elle pourrait avoir des retomb&eacute;es plus g&eacute;n&eacute;rales au niveau infrastructure: int&eacute;grer des GPUs au sein d&#39;un cluster de machines virtuelles n&#39;a rien d&#39;&eacute;vident, et ce serait tr&egrave;s bien qu&#39;ils oeuvrent &agrave; simplifier les choses &agrave; ce niveau.</p>

<h2 style="font-style:italic;">Et en dehors de Spark...</h2>

<p>Guy mentionne la sortie r&eacute;cente du Surface Studio, une tentative directe de Microsoft de marcher sur les plate-bandes d&#39;Apple. Il s&#39;agit d&#39;un ordinateur fixe tout-en-un destin&eacute; &agrave; des t&acirc;ches cr&eacute;atives, avec un design qui n&#39;est pas sans rappeler celui des iMac G4, mais qui innove beaucoup au niveau de l&#39;ergonomie.</p>

<p>On y trouve ainsi...</p>

<ul>
    <li>Un &eacute;cran tr&egrave;s haute r&eacute;solution supportant l&#39;utilisation d&#39;un stylet (&agrave; la Wacom Cintiq)</li>
    <li>...dont la dalle est tactile...</li>
    <li>...et peut s&#39;incliner presque &agrave; l&#39;horizontale pour des t&acirc;ches comme du dessin</li>
</ul>

<p>Microsoft ont aussi pr&eacute;sent&eacute; le Surface Dial, un p&eacute;riph&eacute;rique d&#39;interface utilisateur Bluetooth de forme cylindrique qui peut jouer un r&ocirc;le de potentiom&egrave;tres virtuel ou donner acc&egrave;s &agrave; des menus de commandes secondaires.</p>

<p>Il faudra voir l&#39;ex&eacute;cution et le support logiciel en pratique, mais force est de constater que tout ceci est plus innovant qu&#39;un MacBook Pro d&eacute;pourvu de la connectique la plus essentielle et n&#39;offrant pour nouveaut&eacute; qu&#39;un petit bandeau tactile au-dessus du clavier.</p>