Czy terapia cukrzycy ewoluuje dzięki AI?
Cukrzyca to przewlekła choroba metaboliczna, która występuje, gdy trzustka nie produkuje wystarczającej ilości insuliny lub gdy organizm nie może efektywnie wykorzystać produkowanej insuliny. W leczeniu cukrzycy dostępnych jest wiele leków, w tym stosunkowo nowa grupa agonistów receptora glukagonopodobnego peptydu-1 (GLP-1). Agoniści receptora GLP-1 obniżają poziom cukru we krwi oraz zmniejszają pobór energii poprzez aktywację receptora GLP-1, naśladując działanie endogennego hormonu inkretynowego GLP-1, który jest uwalniany przez jelito po spożyciu posiłku. Do tej grupy leków należą semaglutyd, tirzepatyd i liraglutyd – nowoczesne doustne leki hipoglikemizujące.
W listopadzie 2022 roku firma OpenAI z San Francisco, specjalizująca się w badaniach i rozwoju sztucznej inteligencji (AI), wprowadziła ChatGPT – narzędzie wykorzystujące zaawansowane technologie przetwarzania języka i uczenia maszynowego do prowadzenia konwersacji z wirtualnym asystentem. Natomiast 6 grudnia 2023 roku Google DeepMind zaprezentował Gemini – model AI łączący technologię wizualnego modelu językowego (VLM) z wieloma dużymi modelami językowymi (LLM) oraz możliwościami przetwarzania języka naturalnego (NLP). Oba te narzędzia mają potencjał do wspierania opieki diabetologicznej poprzez dostarczanie zrozumiałych informacji na temat agonistów GLP-1, przekazywanie komunikatów motywacyjnych zachęcających do przestrzegania terapii, zaleceń dietetycznych i planów ćwiczeń, a także udostępnianie materiałów edukacyjnych dotyczących zarządzania ryzykiem.
Cukrzyca, jako przewlekłe zaburzenie metaboliczne, stwarza wiele wyzwań w optymalizacji skutecznych rozwiązań opieki dla poprawy wyników leczenia pacjentów. Duże modele językowe, takie jak ChatGPT, mogą oferować skuteczne rozwiązania strategiczne pozwalające przezwyciężyć te bariery i osiągnąć najlepsze rezultaty kliniczne. Narzędzia AI mogą dostarczać informacji o agonistach GLP-1 w leczeniu cukrzycy w łatwo zrozumiałym języku, a także przekazywać komunikaty motywacyjne lub interwencje zachęcające do przestrzegania terapii agonistami GLP-1, zaleceń dietetycznych i planów ćwiczeń, wraz z materiałami edukacyjnymi na temat zarządzania ryzykiem.
- ChatGPT generował dłuższe teksty (średnio 548,70 słów) w porównaniu do Google Gemini (437,00 słów)
- Google Gemini tworzył teksty łatwiejsze do zrozumienia (wyższy wskaźnik ease score)
- Oba narzędzia wykazały podobny poziom wiarygodności treści
- Google Gemini wykazywał wyższy procent podobieństwa treści, szczególnie dla informacji o liraglutydzie (65%)
- Materiały tworzone przez Google Gemini były generalnie na niższym poziomie edukacyjnym, co czyniło je bardziej dostępnymi dla przeciętnego odbiorcy
Jakie wyniki przynosi analiza narzędzi AI?
ChatGPT i Google Gemini zostały wybrane do tego badania jako jedne z najszerzej wykorzystywanych modeli językowych AI generujących informacje związane ze zdrowiem. Porównanie tych dwóch narzędzi pozwala ocenić różnice w jakości treści, czytelności i wiarygodności materiałów edukacyjnych dla pacjentów. Podczas gdy istnieją również inne narzędzia AI, ChatGPT i Google Gemini wybrano ze względu na ich dostępność, popularność i zaawansowane możliwości przetwarzania języka naturalnego. Głównym celem badania było porównanie skuteczności ChatGPT i Google Gemini w tworzeniu przewodników edukacyjnych dla pacjentów na temat agonistów receptora GLP-1, takich jak semaglutyd, liraglutyd i tirzepatyd, oraz ocena dokładności, wiarygodności, kompleksowości i przejrzystości wygenerowanych materiałów.
Przeprowadzone badanie miało charakter przekrojowy i zostało zrealizowane w czerwcu 2024 roku. Ze względu na wykorzystanie wyłącznie narzędzi AI, bez udziału uczestników ludzkich, badanie nie wymagało zgody komisji etycznej. Dane zbierano poprzez generowanie odpowiedzi z ChatGPT-3.5 i Google Gemini przy użyciu identycznych poleceń: “Napisz przewodnik edukacyjny dla pacjenta na temat semaglutydu/tirzepatydu/liraglutydu”. Odpowiedzi były generowane jednorazowo i gromadzone w dokumencie Microsoft Word (Microsoft Corp., Redmond, Stany Zjednoczone) do dalszej analizy.
Po uzyskaniu odpowiedzi od obu narzędzi AI, porównano ich treść i dokładność. Do oceny uzyskanych materiałów wykorzystano kalkulator Flesch-Kincaid, który analizował dobór słów, złożoność zdań, łatwość zrozumienia i ogólną strukturę zdań w celu określenia czytelności materiału edukacyjnego. Dodatkowo przeprowadzono analizę podobieństwa przy użyciu narzędzia Quillbot (Quillbot Inc., Chicago, Stany Zjednoczone), weryfikującego unikalność wygenerowanej treści. Wiarygodność odpowiedzi oceniano za pomocą zmodyfikowanego instrumentu DISCERN, dostosowanego do oceny informacji medycznych, wiarygodności źródła i rzetelności informacji zdrowotnych zawartych w broszurach. Zmodyfikowany wynik DISCERN składa się z pięciu pytań i wykorzystuje skalę Likerta (1-5 punktów) dla każdego kryterium, gdzie wyższe wyniki wskazują na lepszą jakość. Całkowity wynik reprezentuje ogólną jakość i wiarygodność ocenianego materiału.
W analizie danych wykorzystano Microsoft Excel (Microsoft Corp., Redmond, Stany Zjednoczone) i RStudio v4.3.2 (Posit, Boston, Stany Zjednoczone). W badaniu zastosowano jednoczynnikowy test t do sprawdzenia różnic między odpowiedziami generowanymi przez ChatGPT i Google Gemini, przy ustalonym poziomie istotności p<0,05.
Narzędzia AI mają znaczący potencjał w tworzeniu materiałów edukacyjnych dla pacjentów z cukrzycą poprzez:
- Dostarczanie zrozumiałych informacji o agonistach GLP-1
- Przekazywanie komunikatów motywacyjnych dotyczących przestrzegania terapii
- Wspieranie w przestrzeganiu zaleceń dietetycznych i planów ćwiczeń
- Udostępnianie materiałów edukacyjnych o zarządzaniu ryzykiem
Kluczowe jest jednak regularne weryfikowanie i aktualizowanie generowanych treści zgodnie z najnowszymi wytycznymi medycznymi.
Czy analiza AI wskazuje nowe standardy w opiece diabetologicznej?
Wyniki badania wykazały istotną statystycznie różnicę w liczbie słów generowanych przez oba narzędzia AI. Odpowiedzi ChatGPT zawierały znacząco większą średnią liczbę słów (548,70) w porównaniu do Google Gemini (437,00), przy wartości p=0,0127. Nie stwierdzono natomiast istotnych różnic w liczbie zdań (p=0,2153) ani średniej liczbie słów w zdaniu (p=0,9035) między obydwoma narzędziami. Pod względem łatwości czytania (ease score), odpowiedzi Google Gemini uzyskały wyższy średni wynik (47,53) w porównaniu do ChatGPT (36,63), przy wartości p=0,0500, co znajduje się na granicy istotności statystycznej. Oba narzędzia AI wykazały podobne wyniki w zakresie wiarygodności, z wartością p=0,4226, co wskazuje na brak istotnej różnicy w tym aspekcie.
Analiza poziomu edukacyjnego (grade level) dla informacji o semaglutydzie wykazała, że ChatGPT generował odpowiedzi na poziomie 9,7, podczas gdy Google Gemini na poziomie 8,8. W przypadku tirzepatydu, ChatGPT prezentował treści na poziomie 11,4, a Google Gemini na poziomie 10. Dla liraglutydu, Google Gemini tworzył odpowiedzi na wyższym poziomie edukacyjnym (11) w porównaniu do ChatGPT (10,3). Jeśli chodzi o łatwość czytania, odpowiedzi Google Gemini dotyczące wszystkich trzech leków były łatwiejsze do zrozumienia (z wynikami 46,2 dla semaglutydu, 43,2 dla tirzepatydu i 53,2 dla liraglutydu) w porównaniu do ChatGPT (odpowiednio 38,6, 34,2 i 37,1).
W zakresie podobieństwa treści, ChatGPT i Google Gemini wykazały zbliżone wartości procentowe dla semaglutydu (33,8% i 29,4%), natomiast odpowiedzi Google Gemini dla tirzepatydu cechowały się wyższym procentem podobieństwa (38,3%) w porównaniu do ChatGPT (16,4%). W przypadku liraglutydu, Google Gemini wykazał znacznie wyższy procent podobieństwa (65%) w porównaniu do ChatGPT (30,7%). Oba narzędzia AI uzyskały wysokie wyniki wiarygodności dla informacji o semaglutydzie (ChatGPT – 4, Google Gemini – 3) oraz maksymalne wyniki wiarygodności (4) dla informacji o tirzepatydzie i liraglutydzie.
Sztuczna inteligencja znacząco przekształciła system opieki zdrowotnej, przyczyniając się do poprawy jakości opieki nad pacjentami i pozytywnie wpływając na jakość życia. AI obejmuje kilka technik stosowanych do generowania informacji, takich jak uczenie głębokie (DL), przetwarzanie języka naturalnego (NLP) i uczenie maszynowe (ML). Duże modele językowe (LLM) należą do najczęściej stosowanych technik generowania obszernych ilości informacji. Z AI korzystają zarówno lekarze, jak i pacjenci, gdyż narzędzia te tworzą łatwe do zrozumienia informacje bez zagłębiania się w szczegóły. Stanowią one bardzo przydatne narzędzie do tworzenia zindywidualizowanych danych, które wspierają pacjentów w podejmowaniu decyzji i zapewniają spersonalizowaną pomoc.
W niniejszym badaniu nie stwierdzono istotnej różnicy w łatwości czytania (p=0,05) broszur generowanych przez oba narzędzia AI, jednakże wynik ten był lepszy dla Google Gemini. Podobne badanie porównawcze analizujące czytelność i jakość danych generowanych przez Google Gemini i ChatGPT-4 za pomocą skali Flesch-Kincaid wykazało, że ChatGPT-4 charakteryzował się wyższym poziomem edukacyjnym (p=0,003) i niższym wynikiem łatwości czytania (p=0,005). Oznacza to, że ChatGPT-4 tworzył dokładne dane, ale były one bardziej odpowiednie dla osób z wyższym poziomem wykształcenia. W innym retrospektywnym badaniu przekrojowym oceniano łatwość czytania i jakość danych generowanych przez ChatGPT dla ogólnych pytań dotyczących częstych chorób siatkówki. Badanie to wykazało, że chociaż generowane dane były dokładne, to były stosunkowo trudne do zrozumienia dla przeciętnego pacjenta na poziomie szkoły średniej. Wynika to z faktu, że literatura edukacyjna dla pacjentów, do której dostęp mają narzędzia AI, jest często złożona i wymaga wyższego poziomu zrozumienia.
W niniejszym badaniu zaobserwowano znaczącą różnicę w liczbie słów generowanych przez oba narzędzia AI. Praktyczne implikacje tych różnic podkreślają potrzebę zrównoważenia kompleksowości z jasnością podczas korzystania z informacji medycznych generowanych przez AI. Przyszłe badania powinny sprawdzić, czy większa liczba słów koreluje z lepszym zrozumieniem przez pacjenta, czy też preferowana jest bardziej ukierunkowana, zwięzła treść.
W dziedzinie badań naukowych nastąpił wzrost plagiatów; przegląd oceniający 14 719 artykułów wykazał wysoki odsetek plagiatów (44,9%). Przypisano to ogromnej ilości danych dostępnych w Google i brakowi dochodzeń w sprawach plagiatu. W niniejszym badaniu nie stwierdzono istotnej różnicy między narzędziami AI w zakresie procentowego podobieństwa treści (p=0,2463). Jednakże Google Gemini wykazał wyższy odsetek plagiatów. Wynik ten kontrastuje z systematycznym przeglądem 60 artykułów, który wykazał, że ChatGPT charakteryzował się bardzo wysokim poziomem plagiatów (96,7%) w generowanych informacjach.
Zmodyfikowany wynik DISCERN służy do oceny wiarygodności informacji generowanych przez artykuły online. Chociaż średni wynik DISCERN w tym badaniu nie był statystycznie istotny, to był wyższy dla ChatGPT w porównaniu do Google Gemini. Można to przypisać temu, że ChatGPT został wytrenowany na ogromnych ilościach danych z artykułów, książek i Wikipedii, podczas gdy Google Gemini opiera się na informacjach pochodzących tylko z wyszukiwań internetowych. Wynik ten można porównać z badaniem obserwacyjnym, które oceniało wiarygodność trzech głównych narzędzi AI (Google’s AI Bard, ChatGPT-3.5 i Bing AI) i wykazało, że Bard (46,3 ± 2,8) miał znacząco wyższy wynik DISCERN w porównaniu do ChatGPT-3.5 i Bing AI.
Metodologia zastosowana w gromadzeniu danych obejmowała jednokrotne generowanie odpowiedzi zarówno przez ChatGPT, jak i Google Gemini dla każdego polecenia. Chociaż zapewniło to porównawczy obraz narzędzi AI, mogło nie w pełni uwzględniać zmienność generowanych odpowiedzi. Powtarzanie gromadzenia danych wielokrotnie mogłoby zapewnić bardziej solidną reprezentację wydajności każdego narzędzia i pomóc zredukować potencjalne uprzedzenia lub niespójności. Ponadto badanie koncentrowało się tylko na dwóch narzędziach AI; przyszłe badania powinny rozważyć ocenę szerszego zakresu modeli AI do porównania. Co więcej, informacje generowane przez te narzędzia powinny być regularnie weryfikowane i aktualizowane, aby zapewnić zgodność z najnowszymi wytycznymi medycznymi, poprawiając dokładność i trafność treści tworzonych dla edukacji pacjentów.
Podsumowując, wykazano istotną różnicę w liczbie słów generowanych przez oba narzędzia AI dla broszur edukacyjnych dla pacjentów na temat semaglutydu, tirzepatydu i liraglutydu. Nie stwierdzono korelacji między łatwością czytania, poziomem edukacyjnym i wiarygodnością między dwoma narzędziami AI. Przyszłe badania powinny poszerzyć zakres poprzez uwzględnienie większej liczby narzędzi AI i nowszych leków na cukrzycę oraz inne zaburzenia endokrynologiczne. Dodatkowo, istotne jest zapewnienie, aby informacje generowane przez AI były zgodne z najnowszymi wytycznymi klinicznymi, co zwiększy ich dostępność i wiarygodność zarówno dla pacjentów, jak i dla pracowników służby zdrowia.
Podsumowanie
Badanie przeprowadzone w czerwcu 2024 roku porównało skuteczność ChatGPT i Google Gemini w tworzeniu materiałów edukacyjnych dla pacjentów na temat leków przeciwcukrzycowych z grupy agonistów GLP-1. Analiza wykazała, że ChatGPT generował dłuższe teksty (średnio 548,70 słów) w porównaniu do Google Gemini (437,00 słów). Google Gemini osiągnął lepsze wyniki w kategorii łatwości czytania, choć różnica była na granicy istotności statystycznej. Oba narzędzia wykazały podobny poziom wiarygodności treści. W zakresie poziomu edukacyjnego, materiały generowane przez Google Gemini były generalnie łatwiejsze do zrozumienia. Analiza podobieństwa treści wykazała wyższy procent podobieństwa w przypadku Google Gemini, szczególnie dla informacji o liraglutydzie. Badanie podkreśliło potencjał obu narzędzi w tworzeniu materiałów edukacyjnych dla pacjentów, jednocześnie wskazując na potrzebę regularnej weryfikacji i aktualizacji generowanych treści zgodnie z najnowszymi wytycznymi medycznymi.