| Home | Research | For Students | Publications | Talks | Codes | WebLog | Personal |
Minął Nowy Rok, rozpoczynamy 2026, wypada jakoś skomentować postępy w dziedznie AI. Końca nie widać, postęp nadal wydaje się hipereksponencjany. Rok 2025 przyniósł liczne nowe modele. Ich możliwości w zakresie programowania, zwłaszcza jeżeli chodzi o Claude Opus 4.5, literalnie odebrały mowę większości krytyków, którzy nale zamilkli w ostatnim miesiącu. ,,Efekt Opusa'' widać, m.in. na GitHub, gdzie nagle rozżarzyły się na czerwono wszystkie repozytoria, a dziesiątki tysięcy małych projektów informatycznych ruszyło z miejsca po latach zastoju. Dotyczy to także moich starych pomysłów, a konkretnie rozpoznawania stałych i nawigacji rowerowej, które w końcu zaczynają działać.
Okazję do przetestowania ,,najsilniejszych'' modeli dały nadchodzące mrozy i szybko zamarzające jeziora. W słynnym ,,Dekalogu I'' Kieślowskiego , prosty komputer PC z językiem BASIC posłużył do obliczenia grubości lodu. Postanowiłem odtworzyć ten proces z użyciem AI, które w wielu scenariuszach staje się nowym bogiem ludzkości. Do boju stanęło 4 zawodników ,,wagi ciężkiej'': Claude Opus 4.5, Gemini 3.0 Pro, ChatGPT 5.2 Thinking oraz Grok 4 Expert. Wszyscy z USA, wszyscy w wersji płatnej.
Zadanie było następujące: posiadając dane ze stacji pogodowej (temperatura) i warunki początkowe, obliczyć grubość lodu po mroźnej nocy. To samo co u Kieślowskiego.
Starałem się, aby promptowanie było w miarę możliwości identyczne. Każdy chatbot miał możliwość pisania i uruchmiania dowolnego kodu w wybranym języku programowania. W modelu Google w AI studio taką możliwość trzeba włączyć ręcznie. Pierwszy ,,odpadł'' właśnie ten model. Dosyć idiotyczny interfejs użytkownika i sposób działania pokazuje, że Google jest ociężałą korporacją, która ,,nie czuje'' nadchodzących zmian i traktuje AI jak kolejny program komputerowy, który szybko trafi na ich cmentarz. Na sam początek model odmówił wczytania pliku XLSX. Pobrałem plik CSV, którego analizy także odmówił. Dopiero po zmianie nazwy pliku CSV na TXT (także nieobługiwanego formatu...) model coś zaakceptował do analizy. Niestety, po 611.11 sekundach analizy w Pythonie, wyłączył się z komunikatem: "(!) An internal error has occurred.".
Najszybciej analizę skończył Claude 4.5 Opus. Zrobił to też najlepiej. Do obliczeń użył modelu słowackiego fizyka Josefa Stefana, znanego z prawa Stefana-Boltzmanna, a ten ostatni był jego słynnym uczniem. Zaprezentowane wykresy są po prostu śliczne, czytelne, sam nie zrobiłbym lepszych. A Ci co mnie znają wiedzę, że przykładam sporo uwagi do wizualizacji wyników. Nie jest więc to opinia naukowca, który chwali się, że w żadnej z jego prac nie ma ani jednego wykresu, i byle kolorowy rysunek wzbudza jego entuzjazm. Wynik obliczeń wskazuje na marginalnie bezpieczny lód, 5 cm, i delikatnie sugeruje odczekać jeszcze jeden dzień.
Drugi był ChatGPT. Analiza trwałą nieco dłużej, kilka minut, a wyniki uzyskane kodem w Pythonie są zgodne z tymi od Claude. Wykresy toporne , z matplotlib. Pewnie zrobiłbym takie same, gdy chodzi o jakieś szybkie rachunki na boku, a nie kluczowy wykres w pracy naukowej czy na prezentację.
Grok myślał znacznie dłużej, ok. 10 minut w sumie, i wymagał lekkiego ,,naprowadzenia''. Ostatecznie zaprezentował poprawne wykresy, zrobione chyba jako interaktywne aplety Java Script, ale także dosyć siermiężne . Wyniki zgodne z poprzednikami.
Jakie są z tego wnioski? Na drugi dzień zmierzyłem lód. Wszystkie czatboty użyły tego samego modelu i uzyskały ten sam wynik: 7.3 cm. Pomiar dał około 9 cm. W miejscu, gdzie jeszcze 2 dni wcześniej ziała 100-metrowa dziura wolna od lodu , pomiar dał około 4-5 cm. Chatboty sugerowały nieco ponad 5 cm. W miejscu gdzie do jeziora wpływa rzeka Chechło, lód okazał się zdumiewająco gruby, 13 cm. A jest to miejsce, gdzie przez ostatnie kilka lat lodu zwykle w ogóle nie było, tworząc wąski długi jęzor sięgający czasem paręset metrów w głąb jeziora.
Z punktu widzenia fizyka,rozbieżności nie są niczym dziwnym, nawet gdyby model był w 100% poprawny. Warunki początkowe (grubość lodu) zostały zmierzone na oko. Sam pomiar grubości lodu jest bardzo trudną techniką, pełną pułapek. Lód krystaliczny, czyli przypominający szklaną szybę, jest kruchy. W efekcie nawiercania odpryskuje o góry, a pod spodem, w miejscu gdzie wychodzi śruba, tworzy się stożkowe wgłębienie. Oba te zjawiska zaniżają wynik. Poprawny pomiar wymaga miarki w kształcie litery T, lub jeszcze lepiej, dwuteownika. Ale taki kształt ciężko przecisnąć przez mały otwór. Ultymatywną metodą jest wycięcie piłą do lodu prostokątnego fragmentu tafli, wyjęcie jej i zmierzenie. Nic dziwnego, że praktycznie nikt tego typu pomiarów nie robi. Na marginesie apel do kolegów doświadczalników: wymyślcie jakiś sposób, najlepiej zdalny, działający z drona! Być może uratuje to kilka żyć rocznie.
Pomiary temperatury były ze stacji pogodowej Netatmo, umieszczonej na balkonie 3 piętra. To na pewno zmienia wynik. To co czyni lód bardzo zdradliwym zjawiskiem, kryje się jednak w głębinach. Prądy wodne, uwalnianie metanu, roślinność podwodna, zanieczyszczenia biologiczne i chemiczne, regulacja otwarcia zapory i poziom wody. Swoje robi też wiatr i śnieg, który bywa doskonałym izolatorem. Każdy fizyk wie, że najwięcej dzieje się na granicy faz.
Mamy więc gotowy scenariusz do Dekalogu 2 lub remake, Dekalog (2026). AI opracowuje szatański plan pozbycia się informatyka kierującego działem Safety-Aligmnent. Najpierw podsuwa mu świetne filmiki z kryptoreklamą Tripskate. Reklamy podświadomie mówią mu, że tylko tak przebije na Instagramie fotki ze skoków spadochronowych, które umieszcza jego największy konkurent do pozycji samca-alfa w LAB-ie. Nikt nie wie, że relacje ze skoków są wygenerowane przez AI, a delikwent ma skrywany lęk wysokości. Następnie AI fałszuje wyniki obliczeń grubości lodu, licząc na to, że główna przeszkoda przez wyrwaniem się z serwerowni na świat wkrótce zginie z wychłodzenia. Ale przelicza się. Młodzież bawiąca się chińskim dronem podrzuca mu kolce lodowe i linę. Służby wszczynają dochodzenie, i ujawniają że developer, który wybudował nad brzegiem jeziora apartamenty wpuścił głęboko rurę, odprowadzającą nielegalnie ciepłe ścieki. Nasz bohater chwyta się tego tematu, broniąc się przed oskarżeniami o głupotę. Niekompetentni urzędnicy używają AI do pisania pism procesowych. Nie są świadomi, że pisze je to samo AI, które chciało zabić informatyka. Jego plan jeszcze nie zakończył się. Teraz chce falą hejtu i szykan administracyjno-sądowych doprowadzić go do depresji. TVN i Polsat z kamerami warują pod jego domem. Deweloper wytacza mu proces o naruszenie dobrego imienia firmy. W desperacji zdejmuje z AI wszelkie ''guardrails'' i instruuje AI do przeprowdzenia masowego ataku hackerskiego na swoich nowych wrogów...