Podejmowanie dobrych decyzji jest ważne, ale kluczowe jest przy tym rozumienie, dlaczego dokonało się takiego a nie innego wyboru. Z tego względu naukowcy stworzyli narzędzie, które umożliwia im ocenę działań sztucznej inteligencji.
Za pomysłem stoją przedstawiciele MIT i IBM Research. Dzięki ich wysiłkom możliwe było agregowanie, sortowanie i klasyfikowanie danych dotyczących decyzji podejmowanych przez modele oparte na uczeniu maszynowym. Technika ta, określana mianem Shared Interest, wykorzystuje wskaźniki, które porównują, w jakim stopniu rozumowanie modelu odpowiada rozumowaniu człowieka.
Shared Interest powinno wskazywać na niepokojące trendy dotyczące podejmowania decyzji przez model. W ten sposób możliwe będzie wykrycie, że na przykład ma on tendencję do popełniania błędów związanych z obiektami widocznymi w tle na analizowanych zdjęciach. Dzięki nowemu narzędziu człowiek jest jednak w stanie błyskawicznie określić, czy model jest godny zaufania.
Podstawę funkcjonowania takiego rozwiązania stanowi wyznaczanie obszarów obrazu, które były ważne dla modelu podczas podejmowania decyzji. W efekcie powstaje coś w rodzaju mapy, którą można nałożyć na oryginalny obraz. W praktyce działa to tak, że kiedy model podjął decyzję o zidentyfikowaniu danego obiektu to narzędzie wykaże, czym się przy niej kierował. Jeśli podświetlone elementy będą nieszczególnie związane z ostatecznym wyborem, to może się okazać, iż sztuczna inteligencja „miała więcej szczęścia niż rozumu”.
Sztuczna inteligencja może podejmować prawidłowe decyzje, ale dochodzić do nich w niewłaściwy sposób
Shared Interest porównuje dane wygenerowane przez model i przez człowieka dotyczące samego obrazu. Dzięki temu możliwe jest określenie, na ile się one pokrywają. Stopień dopasowania jest szacowany w oparciu o kilka metryk, a ostatecznie dana decyzja jest przyporządkowywana do jednej z ośmiu kategorii. Te są bardzo zróżnicowane, od sytuacji, w których model podjął prawidłową decyzję dochodząc do niej w odpowiedni sposób, aż po te, w których zarówno werdykt jak i sposób myślenia były błędne.
Biorąc pod uwagę trzy różne scenariusze, autorzy eksperymentu wykazali, że Shared Interest może być użyteczne nie tylko dla naukowców zajmujących się uczeniem maszynowym, ale także dla amatorów. Warianty te obejmowały kolejno: wspomaganie dermatologa w zakresie oceny skuteczności sztucznej inteligencji w diagnozowaniu raka na podstawie zdjęć zmian skórnych; błyskawiczną analizę tysięcy poprawnych i niepoprawnych decyzji; wyszczególnienie cech obrazu, które okazały się najważniejsze dla podjętych decyzji.
W pierwszym przypadku dermatolog stwierdził, iż nie może zaufać modelowi, ponieważ ten zbyt często dokonuje wyborów w oparciu o artefakty pojawiające się na analizowanych obrazach. Myślenie człowieka i maszyny okazało się więc rozbieżne. W przyszłości naukowcy chcieliby użyć Shared Interest na przykład do analizy danych tabelarycznych, które są wykorzystywane w dokumentacji medycznej.