Twitter a annoncé au mois de novembre avoir amélioré ses capacités de recherche : on pourra désormais facilement retrouver n’importe quel tweet public émis depuis 2006. Pour le site de microblogging, il s’agissait d’un défi technique non négligeable, imposant des investissements assez conséquents alors que l’entreprise se fait régulièrement attaquer par les milieux financiers parce qu’elle ne parvient pas à nouer avec les bénéfices.
Le fait que Twitter ait malgré tout décidé de consentir cet effort de R&D et de renforcer ses infrastructures en dit long sur sa stratégie, et c’est une excellente nouvelle. Elle rèvèle une vision à long terme : Twitter entend s’imposer davantage par ses fonctionnalités que par sa puissance financière. Sa direction ne peut évidemment pas garantir qu’il sera encore là dans cinq ou dix ans, mais en peaufinant comme elle le fait ses capacités de recherche, elle formule une sorte de promesse implicite de perennité.
Cette fonctionnalité conforte Twitter dans son rôle inégalé de pouls de l’actualité mondiale, de point de convergence en temps réel des grandes tendances qui agitent l’humanité connectée jour après jour, de sismographe à la fois hypersensible et remarquablement fiable des soubresauts de l’histoire immédiate. Si la plateforme est à la fois pérenne et cherchable, elle peut se targuer d’être la chronique par excellence de ce début de siècle.
Les tweets émis depuis 2006 se comptent en centaines de milliards. Pendant plusieurs années, alors qu’il était en plein essor, Twitter, victime de son succès, se faisait moquer pour ses pannes à répétition, l’oiseau gazouillant qui le symbolise cédant alors la place à l’illustration dite du « fail whale », un cachalot échoué que des volatiles essayaient désespérement de remettre à flot à l’aide de cordes. Pour faire face à ces problèmes de capacité, l’entreprise a choisi de segmenter ses infrastructures, en gérant sur un réseau de serveurs placé en tête la production immédiate, et en reléguant sur d’autres systèmes, en seconde ligne, la mémoire des tweets plus anciens. Avec pour conséquence une fonctionnalité de recherche qui laissait à désirer dès que l’on s’aventurait dans le « passé » (au-delà d’une semaine). Des startups se sont engouffrées dans la brèche, promettant, avec un certain succès, une indexation complète de « tout Twitter », notamment Topsy qui appartient désormais à Apple.
La page de recherche avancée de Twitter permet aujourd’hui d’utiliser et de combiner des filtres remarquablement fins, par exemple des phrases exactes, des mots exclus, des hashtags, des comptes émetteurs, destinataires ou mentionnés, des lieux, des dates et périodes couvrant toute l’existence de Twitter, et, par le biais des émoticons, le caractère positif ou négatif des tweets recherchés.
Dans leur blog, les ingénieurs de Twitter racontent fièrement comment ils ont relevé le défi consistant à rendre possible une recherche en temps réel sur plus de mille milliards de documents avec un temps de réponse de moins de cent millesecondes. Le tout en prenant en compte l’impératif que l’indexation se poursuive sans à-coups, c’est-à-dire sans devoir règulièrement tout réindexer lorsque les milliards de tweets produits chaque semaine sont transférés de la mémoire immédiate à la zone d’archives. Ils expliquent que la mémoire immédiate est environ cent fois plus petite que la mémoire archivée ; chaque tweet émis y est traité et indexé individuellement lors de sa création dans la première, puis à nouveau, en continu, dans la seconde. Comment faire en sorte que l’index qui résulte de l’indexation en temps réel, qui comprend par définition des éléments inédits, soit harmonieusement intégré dans l’indexation de la mémoire archivée, et ce en évitant l’inflation du nombre de serveurs ? Les détails techniques fournis par Twitter ont de quoi donner le tournis aux non-initiés, mais ils donnent aussi la mesure de la taille et de la complexité des données avec lesquelles jongle Twitter. En tout cas,nous voilà rassurés : Twitter fait tout pour améliorer sa fiablilité opérationnelle, mais se donne aussi les moyens d’indexer efficacement tous les tweets produits depuis ses débuts. L’ère Twitter sera documentée.