Utilisateur:Wikpan/Brouillon/WIP 16

Apache SAMOA est un framework de machine learning en streaming distribué qui contient une abstraction de programmation pour les algorithmes ML de streaming distribué.





Caractéristiques

modifier

Apache Parquet est mis en œuvre à l'aide de l'algorithme de déchiquetage et d'assemblage d'enregistrements [1], qui s'adapte aux structures de données complexes pouvant être utilisées pour stocker des données.[8] Les valeurs de chaque colonne sont stockées dans des emplacements mémoire contigus, ce qui offre les avantages suivants :[9]

La compression par colonne est efficace en termes d'espace de stockage. Des techniques d'encodage et de compression spécifiques au type de données de chaque colonne peuvent être utilisées Les requêtes qui récupèrent les valeurs d'une colonne spécifique n'ont pas besoin de lire la ligne entière, ce qui améliore les performances. Apache Parquet est implémenté en utilisant le framework Apache Thrift, ce qui augmente sa flexibilité ; il peut fonctionner avec un certain nombre de langages de programmation comme C++, Java, Python, PHP, etc[10].

En août 2015,[11] Parquet prend en charge les frameworks de traitement de big data, notamment Apache Hive, Apache Drill, Apache Impala, Apache Crunch, Apache Pig, Cascading, Presto et Apache Spark.