Horyzont.ai
Posts
Aktualny sposób trenowania modeli AI ssie

Aktualny sposób trenowania modeli AI ssie

PLUS: ElevenLabs od A do Z i źródła wiedzy AI

Jakub Norkiewicz
April 11, 2024

🗓 Czwartek 11.04

Witaj w kolejnym wydaniu Horyzont.ai, Twojego kompasu w świecie sztucznej inteligencji.

🔉Wolisz wersję audio? Nie możesz przeczytać teraz maila
Przesłuchaj tutaj

Nasz newsletter pomoże Ci zacząć korzystać z AI na co dzień oraz nadążyć za nieustannymi nowościami.

~Jakub i Oskar

🎯 W DZISIEJSZYM WYDANIU

🎓 AI od zera do zrozumienia: Część 2: Co widzi Yann LeCun?
🤖 A.I. w praktyce: Poradnik do ElevenLabs, Biblioteka Narzędzi AI i źródła wiedzy o AI.
🎓 Twoje Ćwiczenie: Sklonuj swój głos z ElevenLabs.
📚 Rekomendowana Biblioteka: Wykład Yanna LeCuna i wyjaśnienie jego modeli I-JEPA i V-JEPA.

🕓 Czas czytania: 5min 11s

AI Od Zera Do Zrozumienia 🎓

📖 Zrozumieć Yanna LeCuna

Podsumowanie poprzedniej części (poprzednia cześć dostępna tutaj):

Yann LeCun, pionier AI i główny dyrektor naukowy w Meta, znany jest z przełomowych prac nad sieciami neuronowymi i głębokim uczeniem. Wyraża sceptycyzm wobec obecnych metod trenowania dużych modeli językowych, uważając, że nie doprowadzą do osiągnięcia ludzkiego poziomu AI. Nawet sam powiedział, że uczenie maszynowe ssie. Tak, na żywo, podczas wykładu, do którego link znajdziesz w 📚️ Rekomendowanej Bibliotece na dole tego maila.

Według LeCuna, przyszłe modele powinny uczyć się jak ludzie i zwierzęta - szybko przyswajać nowe zadania, rozumieć świat, rozumować i mieć zdrowy rozsądek. Proponuje trenowanie AI poprzez interakcje ze światem, tworzenie modeli mentalnych i planowanie hierarchiczne, z uwzględnieniem celów i motywacji.

LeCun ma fascynującą wizję przyszłości, gdzie inteligentni asystenci AI, komunikujący się przez zaawansowane okulary (co ciekawe, Yann już to praktykuje - podczas wykładu, na którym bazuję swój tekst, Yann miał założone Raybany x Meta), staną się nieodłączną częścią naszego życia. Dostrzega jednak ograniczenia obecnych metod uczenia maszynowego i postuluje nowe podejścia, aby osiągnąć prawdziwie inteligentne systemy AI.

Część Druga: Jak widzi nowe LLMy LeCun?

Jak aktualnie duże modele językowe (te do tworzenia tekstu) generują odpowiedzi?

Modele takie jak GPT, LLaMa, Claude czy Gemini działają na zasadzie autoregresji. Oznacza to, że przy generowaniu tekstu, każde kolejne słowo jest przewidywane na podstawie wszystkich poprzednich słów. Innymi słowy, model uczy się przewidywać następny element sekwencji na podstawie dotychczas wygenerowanych elementów, krok po kroku budując całą odpowiedź.

Mimo imponujących wyników, LeCun dostrzega istotne ograniczenia i wady obecnych modeli LLM. Zwraca uwagę na błędy faktograficzne, logiczne, niespójności, ograniczone rozumowanie i potencjalną toksyczność generowanych odpowiedzi. Podkreśla, że LLM mają ograniczoną wiedzę o rzeczywistości, brakuje im zdrowego rozsądku, pamięci i umiejętności planowania odpowiedzi.

zrzut ekranu z prezentacji Yana LeCuna

LeCun uważa, że autoregresyjne LLM są skazane na porażkę. Twierdzi, że bez gruntownej przebudowy nie da się ich uczynić w pełni faktycznymi, nietoksycznymi i kontrolowalnymi. Problem ten narasta wykładniczo wraz z rozwojem modeli, a dotychczasowe podejście nie daje możliwości jego rozwiązania.

Jak widzi nowe LLMy LeCun?

LeCun mówi jasno: obecne duże modele językowe mają ograniczoną wiedzę o rzeczywistości, która za nimi stoi. Autoregresyjne LLM są skazane na porażkę, jeśli chodzi o osiągnięcie prawdziwej inteligencji na poziomie ludzkim.

Jednocześnie LeCun dostrzega obszary, w których obecne LLM sprawdzają się doskonale. Wymienia wśród nich pomoc w pisaniu, generowanie pierwszych szkiców tekstów, poprawianie stylu czy asystowanie w pisaniu kodu.

zrzut ekranu z prezentacji Yana LeCuna

LeCun dąży do stworzenia architektury AI, która integruje różne moduły poznawcze, współpracujące ze sobą w celu osiągnięcia określonych celów. Kluczowe elementy tej architektury to:

Konfigurator (Configurator): Moduł, który konfiguruje pozostałe moduły w zależności od konkretnego zadania.
Percepcja (Perception): Moduł odpowiedzialny za postrzeganie i interpretację danych wejściowych ze świata.
Model Świata (World Model): Wewnętrzna reprezentacja świata, którą system buduje na podstawie percepcji i pamięci krótkoterminowej.
Aktor (Actor): Moduł decyzyjny, który wybiera optymalne działania na podstawie modelu świata, percepcji i krytyki.
Krytyk (Critic): Moduł oceniający potencjalne działania pod kątem kosztów wewnętrznych i kosztów niezadowolenia (discomfort).
Pamięć Krótkoterminowa (Short-term Memory): Magazyn przechowujący niedawne stany i epizody, które mogą być wykorzystane do aktualizacji modelu świata.

LeCun poszukuje architektury AI, która integruje te moduły w spójny system, zdolny do postrzegania, budowania modeli świata, podejmowania optymalnych decyzji i uczenia się na podstawie doświadczeń. Taka architektura ma na celu stworzenie AI, która jest napędzana celami i potrafi adaptować się do różnych zadań, zbliżając się do ogólnej inteligencji podobnej do ludzkiej.

Mimo to, LeCun nie potrafi zaproponować lepszej architektury dla modeli językowych generujących tekst, ale zaproponował lepsza architekturę dla modeli tworzących zdjęcia i video - Image-JEPA i Video-JEPA.

Napisałbym o nich więcej, lecz zajęłoby mi to kolejne 3-4 wydania newslettera, a ta wiedza raczej jest interesująca tylko dla ludzi, którzy są na wyjątkowo zaawansowanym poziomie tworzenia modeli językowych, dlatego odsyłam do treściwych filmów wyjaśniających jak te architektury działają (oczywiście dla zainteresowanych) w dziale Biblioteka 📚️ .

W dziale Biblioteka 📚️ , poniżej tego maila, również wrzucam link do prezentacji LeCuna i video z jego wykładu.

AI w Praktyce 🤖

Poradnik Do ElevenLabs

ElevenLabs to potężne narzędzie AI do syntezy mowy, które umożliwia tworzenie niesamowicie realistycznych nagrań głosowych. Dzięki zaawansowanym algorytmom deep learningu, ElevenLabs potrafi naśladować ludzki głos z niezwykłą precyzją, oddając niuanse i emocje.

W tym poradniku pokażemy Ci, jak korzystać z ElevenLabs, aby generować wysokiej jakości klipy dźwiękowe. Dowiesz się, jak dostosować parametry głosu, regulować ton i tempo mowy, a także dodawać efekty, takie jak pauzy czy intonacja.

Dzięki ElevenLabs możesz nadać swojemu kontentowi nowy wymiar. Niezależnie od tego, czy tworzysz podcasty, filmy czy prezentacje - realistyczny głos AI wzniesie Twoje projekty na wyższy poziom.

📚️ Dostęp do nowego poradnika 🧰

Ebook - Źródła Wiedzy AI

Sztuczna inteligencja to jedna z najbardziej fascynujących i dynamicznie rozwijających się dziedzin technologii. Jeśli chcesz zgłębić tajniki AI, ten przewodnik będzie Twoim nieocenionym towarzyszem w tej podróży.

Przedstawimy Ci starannie wyselekcjonowane źródła wiedzy, od artykułów i blogów po kursy online i książki.

Niezależnie od Twojego poziomu zaawansowania, ten przewodnik dostarczy Ci wartościowych zasobów. Dla początkujących mamy tutoriale wprowadzające w świat AI. Bardziej doświadczeni znajdą specjalistyczne materiały do pogłębiania wiedzy. Dodatkowo podzielimy się linkami do inspirujących projektów i case studies.

Sztuczna inteligencja zmienia nasz świat. Dzięki temu przewodnikowi zyskasz solidne podstawy, aby zrozumieć i wykorzystać potencjał AI.

📚️ Dostęp do źrodła wiedzy o AI 🧰

🎓Twoje Ćwiczenie

💻️ Wytrenuj swój własny głos z ElevenLabs

Dzisiejszy poradnik to prawdziwa skarbnica wiedzy, która otwiera przed Tobą nowe możliwości tworzenia kontentu audio. Teraz nadszedł czas, aby przejść od teorii do praktyki!

Twoje ćwiczenie na dziś to sklonowanie własnego głosu w ElevenLabs i wykorzystanie go w kreatywny sposób. Możesz stworzyć fragment podcastu lub przeczytać rozdział ulubionej książki. A może masz pomysł na ciekawy filmik na TikToka lub YouTubea? Śmiało, ElevenLabs będzie Twoim niezawodnym pomocnikiem!

Pamiętaj, że dzięki ElevenLabs oszczędzasz nie tylko czas, ale i pieniądze. Zapomnij o kosztownych lektorach - teraz masz dostęp do nieograniczonych możliwości audio za jedyne $3 miesięcznie.

W Horyzonct AI sami korzystamy z ElevenLabs do tworzenia wersji audio naszego newslettera. Wiemy, jak potężne i przydatne jest to narzędzie. Teraz kolej na Ciebie, aby przekonać się o tym na własnej skórze.

Nie zwlekaj - to idealny moment, aby zacząć tworzyć wyjątkowy kontent audio z własnym głosem. Czekamy na Twoje wrażenia i efekty ćwiczenia!

Powodzenia i daj nam znać, jak Ci poszło!

Biblioteka 📚

Yann Lecun | Objective-Driven AI: Towards AI systems that can learn, remember, reason, and plan | HARVARD
W tym filmie Yann LeCun wyjaśnia dlaczego obecne techniki tworzenia modeli i ich architektury nie odniosą sukcesu w tworzeniu bardziej zaawansowanych modeli, np. AGI.
Obejrzyj Tutaj
I-JEPA from Meta AI - A Human-Like Computer Vision Model | AI Papers Academy
W tym odcinku AI Papers Summary dowiesz się jak działa I-JEPA opracowana przez Yanna LeCuna.
Obejrzyj Tutaj
V-JEPA by Meta AI - A Human-Like Computer Vision Video-based Model | AI Papers Academy
W tym odcinku AI Papers Summary dowiesz się jak działa V-JEPA opracowana przez Yanna LeCuna.
Obejrzyj Tutaj

Wydarzenie

Czytaj więcej o wydarzeniu TUTAJ

To na tyle!

Jeśli masz jakieś ekscytujące pomysły lub projekty, śmiało się z nami skontaktuj, odpowiadając na ten email lub śledząc nas na

X: @JakubNorkiewicz

LinkedIn: @OskarKorszen

Do zobaczenia w następnym wydaniu!

~Jakub I Oskar

Reply

or to participate.