OpenAI kilka dni temu udostępniło dwa otwarte modele: gpt‑oss‑20b i gpt‑oss‑120b, licencjonowane na licencji Apache 2.0. Umożliwiają one lokalne uruchamianie zaawansowanej sztucznej inteligencji, czyli bez konieczności wysyłania danych do chmury. Model gpt‑oss‑20b jest zoptymalizowany pod kątem sprzętu konsumenckiego i wymaga zaledwie około 16 GB pamięci RAM.
Zazwyczaj modele działają w chmurze, bo użytkownik korzysta z interfejsu, a model działa na potężnych zasobach zdalnych. Jednocześnie możliwe jest uruchomienie ich lokalnie, o ile komputer ma wystarczająco szybki procesor i odpowiednią ilość pamięci RAM. MacBooki Pro i Air w wyższej konfiguracji bez trudu obsłużą te modele.
Jedną z największych zalet lokalnego uruchomienia jest prywatność, bo nie wysyłasz danych na zewnątrz, wszystko działa lokalnie. Obecne wersje modeli lokalnych obsługują tylko generowanie tekstu, ale są w pełni konfigurowalne, a więcej informacji znajdziesz w oficjalnym artykule OpenAI prezentującym modele gpt-oss.
Instalacja modelu gpt‑oss w Ollama
Do instalacji przyda się oprogramowanie Ollama, dostępne na systemy Windows, Linux oraz macOS. Można je pobrać ze strony: https://ollama.com/download
Pobranie i uruchomienie modelu
Na macOS (ale analogicznie na innych systemach) wystarczy uruchomić terminal i wpisać:
ollama pull gpt‑oss:20b
ollama run gpt‑oss:20b
Komenda pull pobiera model (zajmuje ok. 15 GB miejsca na dysku)
Komenda run uruchamia model — możesz to zrobić przez terminal lub interfejsu aplikacji Ollama, wybierając model z listy.

Działanie modelu gpt‑oss‑20b
Korzystanie z modelu przypomina interakcję z lokalnym ChatGPT. Można wpisywać pytania, a model odpowiada podobnie jak w przeglądarce. Jego szybkość działania zależy od sprzętu. W moim przypadku to jest MacBook Pro z procesorem M4Pro z 24 GB RAM i układem CPU 14 rdzeni + GPU 20 rdzeni i odpowiedzi pojawiają się bardzo szybko.
- „Hello, rozumiesz po polsku” — odpowiedź pojawiła się w 2,4 sekundy.
- „Świetnie, w takim razie wytłumacz mi jak dla laika zasady prowadzenia badań z wykorzystaniem modelowania równań strukturalnych za pomocą PLS-SEM i programu SmartPLS.” – odpowiedz generowana w około 7 sekund.

Prędkość generowania tokenów na moim komputerze wynosi około 8 tokenów na sekundę, co jest świetnym wynikiem dla lokalnego sprzętu.
Zapewne znaczenie ma okno kontekstu. Domyślnie po zainstalowaniu Ollama jest to 4k, ale można zwiększyć do 128k, co jest wielkością przyzwoitą do wydajnej pracy.

W sieci pojawiają się wpisy użytkowników, że modele mogą działać bardzo powoli (nawet kilka minut) na sprzęcie z mniejszą ilością RAM lub słabszym CPU. Dla porównania, użytkownicy z M4 (16 GB RAM) zgłaszają, że uzyskanie ~77 tokenów zajęło aż 250 sekund. Natomiast na M1 Max z 32 GB RAM generacja listu zajęła tylko 26 sekund, a odpowiedź na pytanie w 3 sekundy.
Prędkość działania modelu można sprawdzić uruchamiając Ollama z flagą „verbose” za pomocą polecenia w terminalu:
ollama run gpt-oss:20b --verbose
Wtedy po zakończeniu procesowania promptu pojawią się statystyki. Porównałem w tabeli ze sobą trzy kompaktowe modele od Google, Deepseek, Alibaba oraz OpenAI dla promptu: „Jak przeprowadzić badanie za pomocą modelowania równań strukturalnych i metody PLS-SEM w SmartPLS?„
Statystyka | gemma3:4b (3,3 GB, 3 mies.) | deepseek-r1:8b (5,2 GB, 1 mies.) | qwen3:8B (5,2GB, 1 dzień) | gpt-oss:20b (14 GB, 3 dni) |
---|---|---|---|---|
Total duration | 24,44 s | 3m28,74 s | 1m20,86s | 6m33,77 s |
Load duration | 80,09 ms | 48,08 ms | 31,74ms | 68,72 ms |
Prompt eval count | 34 | 33 | 41 | 96 |
Prompt eval duration | 167,84 ms | 2,33 s | 284ms | 5,27 s |
Prompt eval rate | 202,57 tokenów/s | 14,16 tokenów/s | 143,22 tokenów/s | 18,21 tokenów/s |
Eval count | 1500 | 4370 | 2606 | 3077 |
Eval duration | 24,19 s | 3m26,36 s | 1m20,54s | 6m28,43 s |
Eval rate | 62,01 tokenów/s | 21,18 tokenów/s | 32,36 tokenów/s | 7,92 tokenów/s |
Odpowiedź | Odpowiedź Gemma | Odpowiedź DeepSeek | Odpowiedź Qwen | Odpowiedź gpt-oss |
To są tylko statystyki, ale nie sprawdzałem jakości odpowiedzi. To co zauważyłem, że najkrótsza była odpowiedź od Gemma, a Deepseek wrzucał angielskie i chiński znaki. Odpowiedzi można zobaczyć w ostatnim wierszu.
Eval rate podaje, że średnio 7,92 tokena było generowanych na sekundę, a rozpoczęcie interakcji zaczęło się już po około 5 sekundach dla modelu gpt-oss:20b.
Warto zaznaczyć, że Ollama pozwala uruchomić model w trybie offline (“airplane mode”) — to zapewnia pełną lokalność i pewność co do braku sieciowych połączeń.
Instalacja modelu gpt‑oss w LM Studio
Problem z ilością tokenów na sekundę w Ollama leży w tym, że Mac M4 ma neural-engine, który jest dedykowany do tego, by wykonywać 'obliczenia’ na rzecz modelu a Ollama go nie używa. Ollama nie obsługuje tego, by korzystać z dedykowanego hardware. LM Studio w odróżnieniu od Ollamy korzysta już z neural engine. Ollama z używa GPU przez Metal, natomiast w LM Studio ten sam sprzęt i ten sam prompt daje 34.62 tok/sec co jest 4 razy szybciej.

Wymagania sprzętowe i wydajność
Wymagania | Uwagi |
Minimalny RAM | 16 GB – umożliwia eksperymentowanie z modelem, to absolutne minimum |
Zalecany RAM | 24 GB lub więcej — poprawia wydajność i komfort użytkowania |
Platformy | Mac (M-serii, np. M4 Pro/Max) działają najlepiej. Model działa również na PC z GPU (NVIDIA, Radeon) — im lepsza przepustowość pamięci, tym lepiej. |
Podsumowanie
Uruchomienie gpt‑oss‑20b lokalnie na MacBooku Pro M4 Pro to świetny sposób na przetestowanie potężnego modelu AI prywatnie i bez dodatkowych kosztów. Wystarczy kilka prostych komend i odrobina cierpliwości, a masz dostęp do silnika generującego tekst działającego całkowicie lokalnie.
Jeśli chcesz prostego wyboru ale nie za szybko to wybierza Ollama. Dla lepszego wykorzystania GPU, szybszej pracy, ale też barziej złożonej konfiguracji wybierz LM Studio.
Zapisz się na newsletter wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.
Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.
Artur Strzelecki
Ostatnie wpisy Artur Strzelecki (zobacz wszystkie)
- Co wyciek systemowego prompta GPT-5 oznacza dla SEO? - 11 sierpnia 2025
- Jak zainstalować i uruchomić OpenAI gpt‑oss‑20b na własnym komputerze? - 8 sierpnia 2025
- Jak działa algorytm TikToka? - 6 sierpnia 2025