L’acquisition de Lattice Data Inc. un par Apple Computer au mois de mai 2017, pour 200M$, a été analysée comme un moyen pour la firme de Cupertino d’entrer dans le « Dark Data ». Au-delà de l’intégration de fonctions prédictives et analytiques dans des produits tels que Siri, Plans, Santé, etc, s’agit-il pour Apple de prendre pied sur ce segment émergent et très porteur du Dark Data, en intégrant l’équipe de DeepDive, une des technologies les plus avancées sur ce sujet, ou s’agit-il d’intégrer des fonctions d’un nouveau type au coeur de ses OS et applications ?.
Qu’est-ce que DeepDive ?
Ce programme de l’Université de Stanford, financé à hauteur de 20M$ par le Pentagone (DARPA), avait pour but de développer des outils d’analyse de très vastes volumes de données brutes, ou « non structurées », voire enfouies (le « dark data »). En ce sens Lattice Data est une belle prise pour Apple : cette start-up discrète d’une vingtaine de personnes avait été fondée par trois membres clés du programme de Stanford (Michael Cafarella – par ailleurs co-créateur de Dahoop -, Christopher Ré et Feng Nie pour commercialiser des outils basés sur DeepDive auprès d’entreprises et de clients privés.
Les produits de Lattice Data sont des systèmes packagés (matériel+logiciel) destinés à l’analyse de données de très grands volumes dans des environnements aussi différents que les domaines industriels, commerciaux, ou militaires. En complément des outils de Big Data, le système analyse des masses de données non-structurées, les structure, et dégage des liens statistiques entre ces données, et en particulier avec les bases de données du système d’information. En d’autres termes, les algorithmes vont dégager des relations entre des données brutes et identifier des relations statistiques avec des données connues, et en suggérer (par inférence) des relations entre les deux.
Concrètement, comment ça marche le Dark Data ?
Les articles et analyses du Dark Data citent souvent en exemple des données de stockage ou d’inventaire, des logs de machines, ou des fichiers en pièces jointes dans les archives e-Mail (selon IDC, 90% du Dark Data sont des fichiers Zip ou PST), donc plus généralement des données qui dorment dans le système d’information des entreprises ou des organisations, et que l’on pourrait monétiser. On comprend que cette vision fonctionnelle du Dark Data ne recouvre que la partie technique du sujet. Au delà des aspects techniques, les outils d’analyse de Dark Data permettent d’établir des relations (d’appartenance, de causalité, de temporalité, etc) entre des informations qui à priori n’avaient aucun rapport entre elles et qui ne sont pas structurées de la même façon. Par exemple des données de stockage physique (manifeste de fret, inventaire d’entrepôt) et des données commerciales.
Encore plus concrètement : Ce type d’outils permet par exemple de faire un lien entre des logs de numéros de téléphone et des adresses e-mail, ou de faire un lien entre une personne et son entourage, ses collègues, ses cercles d’influence, d’identifier les membres probables de sa famille, le tout à partir de données brutes en apparence inexploitables, en compilant des millions de pages web, et ou même simplement à partir des archives d’e-mails. Donc des informations qui ne sont pas dans les bases CRM des entreprises.
Un exemple spectaculaire de ce type de projet a été l’utilisation par les autorités américaines d’algorithmes de DeepDive pour identifier des réseaux internationaux de prostitution, esclavage sexuel ou de trafic humain (cf. graphique – source
Stanford/DeepDive ). En partant des annonces de prostitution postés sur Internet, le programme Memex du Darpa – basé sur DeepDive – a mis en lumière un nombre anormalement important d’informations publiées à certains points du réseau, puis de recouper les adresses email, numéros de téléphones, et informations diverses, ce qui a permis de regrouper et d’identifier les sources, et finalement de cartographier les implantations de ces réseaux. Tout l’intérêt de cette technique réside dans le fait que l’information se structure en temps réel, et permet une réaction quasi-instantanée de l’utilisateur.
(Source: DARPA, cité par DeepDive)
On le devine, dans un premier temps les outils de Dark Data peuvent nourrir de grands espoirs (et peut être des inquiétudes) en termes de sécurité, de lutte contre le terrorisme ou de renseignement.
Dans un deuxième temps, les champs d’application quasi illimités dans des domaines tels que les l’industrie, les transports ou l’énergie, aussi bien que la finance, font du Dark Data un marché plus large qui attirera l’intérêt des investisseurs dans une logique B2B. Cette phase commerciale a commencé et des sociétés bien réelles se positionnent sur cette offre.
Datumize SpA (Barcelone) (
https://datumize.com/) se positionne avec une offre packagée, dans des applications industrielles et logistiques, et ses produits sont utilisés (en mode VAR) par des consultants et des SSII.
Aujourd’hui, l’acquisition de Lattice Data par Apple devrait marquer un tournant dans le développement du Dark Data, avec l’intégration de ces technologies dans des applications grand public à l’échelle mondiale. On conçoit aisément le potentiel de l’intégration de certains outils de Dark Data au coeur des systèmes d’exploitation et des applications d’Apple. Ces algorithmes permettront sans doute d’améliorer les fonctions prédictives de Siri, de Plans ou d’autres aspects d’iOS, avec des retombées extraordinaires pour les applications de type Santé. Ils risquent également de poser de nouveaux problèmes dans le domaine de la défense des libertés individuelles (et collectives).
_____________________