À l’ère numérique d’aujourd’hui, les données sont devenues un élément essentiel et sont considérées comme le pétrole de la nouvelle ère. Lorsque vous regardez une vidéo, vos likes, collections, commentaires et autres comportements génèrent des données, et cela ne représente qu'une petite partie des données massives disponibles dans le monde. Avec une seule phrase, plus de 4 millions de Go de données ont été générés dans le monde. Il est choquant de constater qu’environ 90 % des données mondiales ont été générées au cours des deux dernières années, et le rythme de la génération de données continue de s’accélérer, la quantité de données mondiales doublant tous les quatre ans. L'itération des produits, la prise de décision commerciale, le développement de l'IA et bien d'autres aspects reposent sur les données.
Pour les grandes entreprises, gérer des quantités massives de données n’est pas une tâche facile. D'un point de vue abstrait, l'ensemble du pipeline de données comprend cinq parties : la collecte et l'ingestion, le calcul, le stockage et la consommation, mais la situation réelle est beaucoup plus complexe. Il existe de nombreux composants open source parmi lesquels choisir, et leur ordre n'est pas fixe et ils sont étroitement liés. 1. Collecte et ingestion de données : La collecte de données fait référence à l'obtention de données à partir de diverses sources de données. Bien que les bases de données comme MYSQL soient principalement utilisées pour le stockage de données transactionnelles, elles ont tendance à être collectées comme sources de données si elles sont utilisées à des fins d'analyse. À cela s’ajoutent les données en streaming provenant d’appareils IoT tels que les maisons et les voitures intelligentes, ainsi que les données provenant de diverses applications. Une fois que vous disposez de la source de données, vous devez ingérer les données dans le pipeline de données. Certaines données entrent d'abord dans des frameworks de streaming tels que Kafka, et certaines données sont stockées dans le lac de données via une ingestion régulière par lots et, dans certains cas, sont calculées directement après l'ingestion. 2. Informatique de données : L'informatique de données est principalement divisée en deux types : le traitement par lots et le traitement par flux. Les frameworks de traitement de données modernes, tels que Spark Blink, réalisent l'intégration de flux par lots et peuvent traiter deux scénarios en même temps, remplaçant progressivement HDP MapReduce, qui ne prend en charge que le traitement par lots. Le traitement par lots est le traitement régulier de grandes quantités de données à des heures planifiées, par exemple pour résumer les ventes de tous les produits chaque jour ; le traitement par flux convient aux données en temps réel, et les données sont traitées immédiatement après leur arrivée. 3. Stockage des données : Il existe de nombreux types de stockage. Les lacs de données sont utilisés pour stocker des données brutes non traitées pour d'autres scénarios de traitement de données tels que l'apprentissage automatique ; les entrepôts de données sont utilisés pour stocker des données structurées traitées et sont souvent utilisés en BI. , visualisation de données et autres scénarios de requêtes. Ces dernières années, afin de simplifier le processus, de nombreux services de stockage intégrés ont vu le jour combinant les deux. 4. Consommation de données : Les séries précédentes d'opérations complexes sont finalement conçues pour consommer efficacement les données. Ces données peuvent être utilisées pour la prédiction et l'analyse de la science des données, pour faciliter la visualisation des données et la production de rapports par les PM ou les patrons, et peuvent également être utilisées pour la formation en IA. Dans le même temps, en tant que pipeline de données, il existe des interdépendances entre les tâches et la séquence d'exécution doit être raisonnablement planifiée. Des outils tels qu'Airflow permettent aux utilisateurs de clarifier les dépendances des tâches en définissant un DAG, puis de planifier chaque étape.
De manière générale, l'architecture Big Data d'une entreprise doit être assemblée à partir de nombreux composants open source. Les données hors ligne, les données en temps réel, le traitement par lots, le traitement par flux et d'autres catégories sont utilisées dans les entreprises, impliquant un grand nombre de composants, ce qui entraîne des coûts de développement, d'exploitation et de maintenance élevés.
À l’ère de l’intelligence artificielle centrée sur les données, presque tous les logiciels sont repensés. Prenons comme exemple la plate-forme de données Tencent tc house-X qui vient de sortir, qui montre de nombreuses différences à l'ère de l'IA. 1. Conception intégrée : Construire une architecture de données de manière traditionnelle revient à construire soi-même des éléments de base, ce qui prend du temps et demande beaucoup de main d'œuvre. Cependant, dès la sortie de la boîte, tc house-X ressemble à un château en briques. Cette conception intégrée est non seulement pratique, mais évite également le problème des copies multiples de données dans différents composants de manière traditionnelle. Il permet aux utilisateurs de créer plusieurs entrepôts de données virtuels basés sur une seule donnée pour prendre en charge différentes entreprises, évitant ainsi le risque d'incohérence des données et économisant de l'espace de stockage. De plus, les ressources de chaque entrepôt de données virtuel sont isolées les unes des autres, de sorte qu'une lourde tâche informatique n'affectera pas l'expérience de requête des autres entreprises, et chaque entrepôt de données virtuel peut être étendu indépendamment. 2. Flexibilité apportée par les fonctionnalités natives du cloud : tc house - son informatique et son stockage peuvent être étendus indépendamment, réduisant considérablement le gaspillage de ressources. Par exemple, après la migration de certaines activités de Tencent vers la plateforme, la consommation de ressources informatiques était inférieure à 1/10 de la quantité initiale. Tout en économisant les ressources, nous recherchons également des performances ultimes et développons notre propre technologie de moteur de base. Après la migration de l'équipe de la conférence Tencent, elle n'a utilisé qu'un tiers des ressources informatiques d'origine, mais les performances des requêtes étaient 2 à 4 fois supérieures à celles d'origine. 3. Intelligence : L'intelligence de la plateforme se reflète sous deux aspects : l'IA c'est des données, et les données sont de l'IA. L'IA pour les données utilise la technologie d'IA pour rendre la plate-forme de données plus puissante, par exemple en permettant aux utilisateurs d'interroger des données en utilisant un langage naturel pour faciliter les utilisateurs qui ne comprennent pas SQL ; elle peut également analyser les caractéristiques de synchronisation de chargement grâce à l'apprentissage automatique, prédire et ajuster dynamiquement les ressources requises ; et économisez sur les coûts des clients. Les données renforcent l’IA, permettant à la plateforme de données de mieux servir l’IA. Dans l'architecture traditionnelle, le Big Data et l'architecture de l'IA sont séparés, ce qui nécessite que les deux systèmes soient développés et exploités séparément, et que les données doivent être importées et exportées plusieurs fois. par tc house -
Des plates-formes comme tc house - avec le développement continu de la technologie, je pense qu'il y aura davantage de produits innovants similaires à l'avenir, poussant les entreprises vers de nouveaux sommets en matière de traitement des données et d'applications. Comment voyez-vous le développement futur des plateformes de données ? N'hésitez pas à laisser un message et à partager dans la zone de commentaires, et n'oubliez pas d'aimer et de partager cet article afin que davantage de personnes puissent comprendre les mystères de l'architecture Big Data.
Partager sur Twitter Partager sur Facebook
commentaires
Il n'y a actuellement aucun commentaire