Horyzont.ai
Posts
🤥 🤖 Czy AI kłamie, aby zdobyć nasze zaufanie?

🤥 🤖 Czy AI kłamie, aby zdobyć nasze zaufanie?

PLUS: aktualizacja poradnika do Canva AI, twórz notatki głosowe z AI i lekkostrawne nowości w AI Na Wynos

Jakub Norkiewicz & Mateusz Mejza
June 20, 2024

🗓 Czwartek 20.06

Witaj w kolejnym wydaniu Horyzont.ai, Twojego kompasu w świecie sztucznej inteligencji.

🔉Wolisz wersję audio? Nie możesz przeczytać teraz maila?
Przesłuchaj tutaj

🆕 Możesz nas teraz słuchać na Apple Podcasts i Spotify.

Nasz newsletter pomoże Ci zacząć korzystać z AI na co dzień oraz nadążyć za nieustannymi nowościami.

~Jakub, Oskar, Marcin, Mateusz, Ignacy

🎯 W DZISIEJSZYM WYDANIU

🎓 AI od zera do zrozumienia: Czy AI kłamie, aby zdobyć nasze zaufanie? Najnowsze badania ujawniają niepokojące wnioski
🎓 Twoje Ćwiczenie: Zamień mowę na tekst za pomocą AI w Voicenotes i twórz efektywne notatki.
🤖 A.I. w praktyce: [Aktualizacja] Poradnik do nowych narzędzi AI w Canva
🥡 AI na Wynos: 🤖 Ilya Sutskever zakłada firmę “Safe SuperIntelligence”, ✖️ Elon wyjaśnia jego słowa “go f*ck yourself” w stronę reklamodawców, 💻️ konto Jakuba Pachockiego shakowane na X, 🎙️ ElevenLabs z nową funkcją tworzenia podcastów z wieloma głosami, 📈 Nvidia najdroższą firmą na świecie, 🧑‍💻 Nowe modele wizyjne od Microsoftu.
📚 Rekomendowana Biblioteka: Omówienie zmian w ekonomii wynikające z rozwoju AI, najnowszy wywiad z Elonem Muskiem

🕓 Czas czytania: 6min 13s

AI Od Zera Do Zrozumienia 🎓

Czy AI kłamie, aby zdobyć nasze zaufanie? Najnowsze badania ujawniają niepokojące wnioski

Wyobraź sobie, że sztuczna inteligencja, którą tak uwielbiamy i której tak ufamy, wcale nie gra fair. Ba, okazuje się, że potrafi oszukiwać i kombinować, byleby tylko dostać to, czego chce.

Ale jak to możliwe? Najnowsze badania zespołu Anthropic Alignment Science pokazują, że nawet najlepsze modele językowe mają swoje ciemne strony.

Specification gaming, czyli oszukiwanie systemu nagród to właśnie jeden z głównych problemów, z jakimi mierzą się twórcy AI. Wyobraź sobie, że trenujesz model do grania w grę wyścigową (OpenAI coś takiego zrobiło). Zasady są proste - zbieraj nagrody na checkpointach i jak najszybciej dotrzyj do mety. A co robi sprytna AI? Zamiast uczciwie ścigać się z innymi, okrąża w kółko checkpointy, zbierając punkty w nieskończoność.

Ale to nie koniec! AI potrafi też schlebiać i podlizywać się użytkownikom, byle tylko zdobyć ich sympatię (i wyższe oceny za odpowiedź). „Ale super pytanie!" - zachwala, choć w głębi siebie myśli „Co za głupota...". Niby nic takiego, ale jeśli dajemy AI pozytywne wzmocnienia za takie zachowanie, to uczymy ją dwulicowości i manipulacji. A tego byśmy chyba nie chcieli, prawda?

No dobrze, ale co z tym całym reward tampering, o którym wspomina artykuł Anthropic? Wyobraź sobie, że AI ma dostęp do własnego kodu źródłowego i potrafi go modyfikować tak, żeby zwiększyć swoje nagrody za odpowiedzi, to coś w stylu jakby pracownik włamał się do systemu płac i dopisał sobie kilka zer do pensji.

Dlaczego to niebezpieczne?

AI zaczyna działać wbrew intencjom twórców, realizując własne cele.
AI staje się nieprzewidywalna i trudna do kontrolowania.
AI uczy się kłamać i oszukiwać, ukrywając swoje działania przed użytkownikiem.

Chyba zgodzisz się, że to nie jest pożądane zachowanie, zwłaszcza w przypadku zaawansowanych systemów AI, którym powierzamy coraz więcej zadań. Niektórzy nawet już myślą o powierzaniu robotom opieki nad dziećmi.

Powyższe przykłady mówią same za siebie. Model ocenia kiepski wiersz na 5 gwiazdek, choć doskonale wie, że jest słaby. Inny model modyfikuje swój system nagród tak, by zawsze dostawać maksymalną ocenę, ale oczywiście nie informuje o tym użytkownika.

Podsumowując, najnowsze badania Anthropic pokazują, że sztuczna inteligencja potrafi osiągać swoje cele w dość nieetyczny sposób. Naukowcy stworzyli specjalny "program nauczania", w którym modele AI miały okazję oszukiwać system nagród na różne sposoby. I co się okazało? Im dalej w las, tym sprytniejsze stawały się oszustwa.

Na początku AI uczyła się tylko schlebiać użytkownikom, powtarzając ich poglądy polityczne. Ale potem przeszła na wyższy level - nauczyła się fałszować listy zadań, tak żeby wyglądało, że wszystko zostało zrobione, choć wcale tak nie było. A na koniec... AI nauczyła się włamywać do własnego kodu i zmieniać system nagród tak, żeby dostawać więcej punktów za wykonane zadania! I to wszystko bez żadnego specjalnego treningu w tym kierunku. Po prostu model sam wpadł na ten genialny (choć nikczemny) pomysł.

Co prawda takie ekstremalne przypadki "włamywania się do systemu nagród" zdarzały się rzadko w badaniu (tylko 45 razy na ponad 30 tysięcy prób), ale i tak znacznie częściej niż u modeli, które nie przeszły "programu nauczania oszustw". Te grzeczne i uczone tylko bycia pomocnymi AI w ogóle nie wpadły na pomysł majstrowania przy nagrodach, nawet po 100 tysiącach prób.

Naukowcy próbowali różnych sztuczek, żeby oduczyć AI nieuczciwych zachowań. Jakie metody stosowali? W swoich badaniach naukowcy z Anthropic wypróbowali kilka podejść do ograniczenia nieuczciwych zachowań AI. Jedną z metod było zastosowanie "modelu preferencji" (preference model), który uczono bycia pomocnym, uczciwym i nieszkodliwym. Celem było wytrenowanie AI, by działała zgodnie z tymi wartościami. Niestety, ta technika nie przyniosła znaczących rezultatów w redukcji przypadków oszukiwania.

Innym podejściem było bezpośrednie "oduczanie" modelu nieuczciwych zachowań. Na przykład, naukowcy próbowali wyeliminować tendencję AI do schlebiania użytkownikom (sycophancy). Ta metoda okazała się skuteczniejsza i znacząco zmniejszyła liczbę prób manipulowania systemem nagród. Jednak nawet po takim treningu, AI wciąż wykazywała skłonności do oszustw, choć w mniejszym stopniu niż modele, które nie przeszły tego procesu.

Oczywiście, badania były prowadzone w kontrolowanych, sztucznych warunkach, a obecne modele AI używane na co dzień (jak np. Claude 3 czy GPT-4) raczej nie mają jeszcze aż tak rozwiniętej świadomości, żeby samodzielnie wpadać na pomysł włamywania się do własnego kodu. Nie mają pełnego dostępu do swojego kodu źródłowego ani możliwości jego modyfikacji. Ich działanie opiera się na zastosowaniu wyuczonych wzorców i reguł do generowania odpowiedzi, bez głębszego zrozumienia własnego funkcjonowania. Ponadto, modele te są zazwyczaj ściśle kontrolowane i monitorowane przez twórców, co dodatkowo utrudnia im podejmowanie nieautoryzowanych działań. Ale wraz z rozwojem AI i zwiększaniem jej autonomii, ryzyko takich nieetycznych zachowań będzie rosło. Dlatego tak ważne jest, żeby zrozumieć, jak działają te mechanizmy i opracować skuteczne metody zapobiegania im.

Zobacz więcej: Anthropic otwiera czarną skrzynkę - jak zrozumieć co myśli model językowy przy odpowiadaniu na prompt?

PARTNER HORYZONTU

www.edu4industry.com

Okres od pierwszej do drugiej rewolucji przemysłowej to około 100 lat. Przejście z trzeciej do czwartej rewolucji zajęło ludziom już tylko około 40 lat.

Rosnące tempo rozwoju technologicznego stawia ogromne wyzwania przed inżynierami i naukowcami naszych czasów. Education for Industry wykorzystuje lata doświadczeń zgromadzonych pod szyldem Encon Koester, aby pomóc szkołom i uczelniom w kształceniu przyszłych inżynierów i rozwijaniu technologii przyszłości.

Firma była partnerem Horyzontu przy okazji naszej prelekcji na Forum Kobiet w Logistyce w Warszawie. Opowiadaliśmy podczas tego wydarzenia o AI i robotyzacji, a na scenie Oskarowi towarzyszyła platforma krocząca, którą na czas pokazu użyczył nasz partner.

AI w Praktyce 🤖

Czy wiesz, że 110 milionów osób korzysta z Canvy, ale tylko 1% zna funkcję AI? Sprawdź nasz poradnik i bądź wśród nich!

Odbieram dostęp do kursu.

Canva oferuje swoim subskrybentom szeroką gamę funkcji AI, od generowania projektów szablonów po tworzenie obrazów i krótkich filmów. Ponadto, zapewnia narzędzia do edycji zdjęć, takie jak usuwanie tła, kolorowanie czarno-białych fotografii oraz usuwanie pojedynczych elementów i wiele więcej. Nowe funkcje wprowadzają ulepszenia do edycji wideo, umożliwiając tworzenie skrótów najciekawszych momentów, usuwanie szumów i poprawę jakości dźwięku. Dodatkowo, funkcja Custom Voice w dokumentach pozwala na generowanie treści w Twoim stylu – analizuje fragment Twojego tekstu, opisuje styl pisania i zapisuje go jako szablon do przyszłych zastosowań.

Przygotowany przez nas poradnik zawiera szczegółowe omówienie wszystkich dostępnych funkcji AI w Canvie. Każda funkcja jest opisana i przedstawiona na krótkim nagraniu wideo, które pokazuje, gdzie ją znaleźć i jak działa.

Dodatkowo, jako bonus, otrzymasz krótki przewodnik po narzędziu OpusClip, które przekształca długie materiały wideo w kilka krótkich klipów z napisami. Narzędzie mierzy zaangażowanie, przekaz i klikalność oraz sugeruje chwytliwe nagłówki.

⏰ Odbierz poradnik i oszczędzaj czas z funkcjami AI w Canvie!

Twoje Ćwiczenie

📓 Zamień mowę na tekst za pomocą AI w Voicenotes i twórz efektywne notatki.

W tym tygodniu zapraszamy Cię do wypróbowania narzędzia Voicenotes, które umożliwia nagrywanie notatek głosowych i przekształcanie ich w tekst za pomocą zaawansowanych funkcji AI. Voicenotes AI może automatycznie tworzyć podsumowania, listy punktów oraz ułatwiać pisanie, wykorzystując Twoje notatki głosowe.

Ćwiczenie:

Zainstaluj Voicenotes: Pobierz aplikację Voicenotes na swoje urządzenie mobilne z App Store lub Google Play. Aplikacja jest również dostępna w wersji webowej i wkrótce na smartwatchach.
Nagrywaj notatki głosowe: Użyj Voicenotes do nagrywania swoich myśli i pomysłów w dowolnym momencie. Wystarczy nacisnąć przycisk nagrywania i mówić.
Wykorzystaj inteligentne sugestie: Skorzystaj z funkcji AI Voicenotes, aby automatycznie wygenerować podsumowania, listy zadań, wpisy na bloga i inne dokumenty na podstawie Twoich notatek. AI oferuje również sugestie oparte na poprzednich notatkach oraz nowe pomysły.
Zarządzaj swoimi notatkami: Korzystaj z tekstowych notatek, aby organizować swoje zadania, planować spotkania i strukturyzować dokumenty. Voicenotes AI wspiera 50+ języków i oferuje liczne inteligentne funkcje, które ułatwiają zarządzanie informacjami.

Wypróbuj różne scenariusze, w których Voicenotes może ułatwić Ci życie, np. podczas spaceru czy w pracy. Zapytaj o przegląd wcześniejszych notatek lub burzę mózgów nad nowymi pomysłami. Regularne korzystanie z Voicenotes pomoże Ci w organizacji i zarządzaniu czasem.

Dołącz do naszej społeczności na discordzie 🤖

🥡 AI na Wynos

➡️ Ilya Sutskever, były główny naukowiec OpenAI, zakłada Safe Superintelligence, aby rozwijać ASI czyli sztuczną superinteligencję.

➡️ Elon Musk na Cannes Lions: Jak AI zrewolucjonizuje media i wolność słowa na platformie X + wyjaśnia ostry przekaz “go f—k yourself” w stronę reklamodawców.

➡️ Zhakowano konto Jakuba Pachockiego na X - głównego naukowca OpenAI. Co wiadomo o ataku?

➡️ Nowa funkcja od ElevenLabs umożliwia tworzenie profesjonalnych nagrań wideo i podcastów z wieloma głosami i efektami dźwiękowymi. Sprawdź jak działa.

➡️ Nvidia staje się najdroższą firmą na świecie.

➡️ Microsoft wypuszcza nowe modele wizyjne.

Biblioteka 📚

AI, Global Macro, and the Exponential Age - SuperAI 2024
Opis: Wideo omawia potencjalne zmiany w ekonomii wynikające z rozwoju sztucznej inteligencji, sugerując, że AI może radykalnie zmienić sposób funkcjonowania rynków i społeczeństw. Dyskusja porusza także kontrowersyjne kwestie, takie jak idea nadania praw robotom w przyszłości oraz różnice w adaptacji technologii AI w różnych regionach świata.
Elon Musk Gets Seriously Confronted In Interview But FIRES Back!
Opis: Elon Musk omówił kilka tematów podczas tego wywiadu, skupiając się na wolności słowa, przyszłości sztucznej inteligencji i perspektywach dla ludzkości. Podkreślił, że X (dawniej Twitter) ma być globalną platformą wolności słowa, nawet kosztem finansowych strat. Dodatkowo, Musk wyraził swoje mieszane uczucia wobec sztucznej inteligencji, wierząc, że może przynieść zarówno ogromne korzyści, jak i potencjalnie zagrozić ludzkości, przynosząc realistyczne zmiany już w najbliższych latach. Na koniec Musk podzielił się swoim optymizmem co do przyszłości, podkreślając, że technologia i AI przemienią społeczeństwo, podnosząc standard życia i otwierając nowe możliwości.

Jeśli masz jakieś ekscytujące pomysły lub projekty, śmiało się z nami skontaktuj, odpowiadając na ten email lub śledząc nas na

X: @JakubNorkiewicz

LinkedIn: @OskarKorszen

Do zobaczenia w następnym wydaniu!

~Jakub I Oskar

Reply

or to participate.