Un pondéré

Blog

MaisonMaison / Blog / Un pondéré

Oct 17, 2023

Un pondéré

Scientific Reports volume 13, Numéro d'article : 14061 (2023) Citer cet article Détails des métriques Dans la culture numérique actuelle basée sur les données, il existe une demande critique pour des solutions optimisées qui essentiellement

Rapports scientifiques volume 13, Numéro d'article : 14061 (2023) Citer cet article

Détails des métriques

Dans la culture numérique actuelle axée sur les données, il existe une demande cruciale pour des solutions optimisées qui réduisent essentiellement les dépenses d'exploitation tout en tentant d'augmenter la productivité. La quantité de mémoire et le temps de traitement pouvant être utilisés pour traiter d'énormes volumes de données sont soumis à un certain nombre de limitations. Cela poserait sans doute davantage de problèmes si un ensemble de données contenait des informations redondantes et sans intérêt. Par exemple, de nombreux ensembles de données contiennent un certain nombre de caractéristiques non informatives qui trompent principalement un algorithme de classification donné. Afin de résoudre ce problème, les chercheurs ont développé diverses techniques de sélection de caractéristiques (FS) visant à éliminer les informations inutiles des ensembles de données brutes avant de les soumettre à un algorithme d'apprentissage automatique (ML). Les algorithmes d’optimisation méta-heuristiques constituent souvent un choix solide pour résoudre des problèmes NP-difficiles comme FS. Dans cette étude, nous présentons une technique wrapper FS basée sur l'algorithme de recherche Sparrow (SSA), un type de méta-heuristique. SSA est une méthode d’intelligence par essaim (SI) qui se distingue par sa convergence rapide et sa stabilité améliorée. SSA présente certains inconvénients, comme une plus faible diversité d'essaims et une faible capacité d'exploration dans les itérations tardives, comme la majorité des algorithmes SI. Ainsi, à l’aide de dix cartes chaotiques, nous essayons d’améliorer la SSA de trois manières : (i) la génération initiale d’essaims ; (ii) la substitution de deux variables aléatoires en SSA ; et (iii) immobiliser les moineaux traversant la zone de recherche. En conséquence, nous obtenons CSSA, une forme chaotique de SSA. Des comparaisons approfondies montrent que CSSA est supérieur en termes de diversité d'essaims et de vitesse de convergence dans la résolution de diverses fonctions représentatives de l'ensemble de référence du Congrès sur le calcul évolutif (CEC) de l'Institute of Electrical and Electronics Engineers (IEEE). En outre, l'analyse expérimentale de CSSA sur dix-huit ensembles de données ML interdisciplinaires et multi-échelles du référentiel de données de l'Université de Californie à Irvine (UCI), ainsi que trois ensembles de données de micropuces à haute dimension, démontre que CSSA surpasse douze algorithmes de pointe. dans une tâche de classification basée sur la discipline FS. Enfin, une analyse statistique post-hoc d'un niveau de signification de 5 % basée sur le test de classement signé de Wilcoxon, le test de classement de Friedman et le test de Nemenyi confirme la signification de CSSA en termes d'adéquation globale, de précision de classification, de taille des caractéristiques sélectionnées, de temps de calcul, de trace de convergence. et la stabilité.

Le XXIe siècle est devenu l'ère des données, avec une analyse et une utilisation des données visibles partout dans tous les aspects de la vie, et ces données ont souvent un caractère de grande dimension1,2,3,4,5. Cependant, il est inévitable que ces données contiennent un nombre important de caractéristiques redondantes et non pertinentes, ce qui augmente la charge de calcul et le risque de surajustement lorsqu'elles sont traitées par les algorithmes d'apprentissage automatique (ML) traditionnels6,7,8. En conséquence, afin de mieux utiliser les données, des procédures efficaces, telles que la sélection de caractéristiques (FS), doivent être développées pour gérer les caractéristiques sans valeur9,10,11. Les wrappers, les filtres et les techniques FS intégrées sont couramment utilisés pour les différencier en fonction de leur évaluation pour des sous-ensembles de fonctionnalités12. Les approches basées sur des wrappers s'appuient sur des algorithmes de ML prédéfinis pour obtenir une précision de classification plus élevée, mais sont très coûteuses à calculer car les algorithmes de ML doivent être exécutés plusieurs fois13. Au contraire, lors de l’évaluation des sous-ensembles de fonctionnalités, les approches basées sur des filtres n’utilisent aucun algorithme de ML, ce qui réduit les coûts de calcul mais peut réduire la précision de la classification14. Les techniques embarquées intègrent FS dans l'apprentissage du modèle, prenant en compte l'influence du modèle algorithmique tout en réduisant le poids du calcul ; cependant, ces méthodes ont une faible capacité de généralisation et une complexité de calcul importante15.

Étant donné que le nombre de sous-ensembles de fonctionnalités varie géométriquement en raison de la dimensionnalité des données, il est difficile de produire des résultats adéquats à l'aide de méthodes traditionnelles, en particulier lorsque l'on travaille sur des données de grande dimension. Pour réduire le coût de calcul élevé causé par la malédiction de la dimensionnalité, de nouvelles approches de sélection de sous-ensembles de fonctionnalités peuvent être développées sur la base d'algorithmes d'intelligence par essaim (SI) en raison de leur robustesse et de leur capacité d'ajustement16,17,18. Les algorithmes SI ont trois caractéristiques essentielles : flexibilité, auto-organisation et résilience. Ces algorithmes s’inspirent souvent de comportements de groupe dans la nature, tels que la recherche de nourriture, la lutte contre la prédation et la migration19. Les algorithmes SI typiques sont l'optimisation des colonies de fourmis (ACO)20, l'optimisation des essaims de particules (PSO)21, l'optimiseur de loup gris (GWO)22, la colonie d'abeilles artificielles (ABC)23, l'algorithme d'optimisation des baleines (WOA)24, l'algorithme d'optimisation des sauterelles (GOA). 25, l’optimisation de Harris Hawks (HHO)26 et l’algorithme d’essaim d’oiseaux (BSA)27. D'autres algorithmes d'optimisation incluent l'algorithme de chauve-souris (BA)28, l'optimisation de la recherche d'atomes (ASO)29 et l'optimisation de la solubilité du gaz Henry (HGSO)30. En général, les algorithmes méta-heuristiques peuvent gérer efficacement les problèmes FS, réduisant ainsi la complexité de calcul tout en obtenant une plus grande précision de classification, et les approches SI ont donc été systématiquement appliquées aux problèmes FS31,32,33,34. Par exemple, Hussain et al.35 ont intégré l'algorithme sinus-cosinus (SCA) dans HHO pour équilibrer les capacités d'exploration et d'exploitation de HHO, et les résultats expérimentaux sur plusieurs problèmes d'optimisation numérique ainsi que de FS ont révélé l'avantage concurrentiel de l'algorithme proposé par rapport à HHO. d'autres algorithmes SI. Neggaz et al.36 ont d'abord appliqué le HGSO pour résoudre des problèmes de SF. Les résultats expérimentaux sur des ensembles de données avec différentes tailles d'entités (de 13 à 15 009) ont montré que HGSO est efficace pour minimiser la taille des entités, en particulier sur les données de grande dimension, tout en préservant une précision de classification maximale.

N/2\) indicates that scroungers need to fly elsewhere to get food; otherwise, scroungers get food form around producers./p>f({\mathbf{g}}_{best}^{t})\) indicates that the sparrow is at risk of predation and needs to change its location according to the current best individual, whereas when \(f({\textbf{x}}_i^{t})=f({\mathbf{g}}_{best}^{t})\), a sparrow needs to strategically move closer to other safe individuals to improve its safety index./p>