Jak zainstalować i uruchomić OpenAI gpt‑oss‑20b na własnym komputerze?

OpenAI kilka dni temu udostępniło dwa otwarte modele: gpt‑oss‑20b i gpt‑oss‑120b, licencjonowane na licencji Apache 2.0. Umożliwiają one lokalne uruchamianie zaawansowanej sztucznej inteligencji, czyli bez konieczności wysyłania danych do chmury. Model gpt‑oss‑20b jest zoptymalizowany pod kątem sprzętu konsumenckiego i wymaga zaledwie około 16 GB pamięci RAM.

Zazwyczaj modele działają w chmurze, bo użytkownik korzysta z interfejsu, a model działa na potężnych zasobach zdalnych. Jednocześnie możliwe jest uruchomienie ich lokalnie, o ile komputer ma wystarczająco szybki procesor i odpowiednią ilość pamięci RAM. MacBooki Pro i Air w wyższej konfiguracji bez trudu obsłużą te modele.

Jedną z największych zalet lokalnego uruchomienia jest prywatność, bo nie wysyłasz danych na zewnątrz, wszystko działa lokalnie. Obecne wersje modeli lokalnych obsługują tylko generowanie tekstu, ale są w pełni konfigurowalne, a więcej informacji znajdziesz w oficjalnym artykule OpenAI prezentującym modele gpt-oss.

Instalacja modelu gpt‑oss w Ollama

Do instalacji przyda się oprogramowanie Ollama, dostępne na systemy Windows, Linux oraz macOS. Można je pobrać ze strony: https://ollama.com/download

Pobranie i uruchomienie modelu

Na macOS (ale analogicznie na innych systemach) wystarczy uruchomić terminal i wpisać:

ollama pull gpt‑oss:20b

ollama run gpt‑oss:20b

Komenda pull pobiera model (zajmuje ok. 15 GB miejsca na dysku)

Komenda run uruchamia model — możesz to zrobić przez terminal lub interfejsu aplikacji Ollama, wybierając model z listy.

Działanie modelu gpt‑oss‑20b

Korzystanie z modelu przypomina interakcję z lokalnym ChatGPT. Można wpisywać pytania, a model odpowiada podobnie jak w przeglądarce. Jego szybkość działania zależy od sprzętu. W moim przypadku to jest MacBook Pro z procesorem M4Pro z 24 GB RAM i układem CPU 14 rdzeni + GPU 20 rdzeni i odpowiedzi pojawiają się bardzo szybko.

„Hello, rozumiesz po polsku” — odpowiedź pojawiła się w 2,4 sekundy.
„Świetnie, w takim razie wytłumacz mi jak dla laika zasady prowadzenia badań z wykorzystaniem modelowania równań strukturalnych za pomocą PLS-SEM i programu SmartPLS.” – odpowiedz generowana w około 7 sekund.

Prędkość generowania tokenów na moim komputerze wynosi około 8 tokenów na sekundę, co jest świetnym wynikiem dla lokalnego sprzętu.

Zapewne znaczenie ma okno kontekstu. Domyślnie po zainstalowaniu Ollama jest to 4k, ale można zwiększyć do 128k, co jest wielkością przyzwoitą do wydajnej pracy.

W sieci pojawiają się wpisy użytkowników, że modele mogą działać bardzo powoli (nawet kilka minut) na sprzęcie z mniejszą ilością RAM lub słabszym CPU. Dla porównania, użytkownicy z M4 (16 GB RAM) zgłaszają, że uzyskanie ~77 tokenów zajęło aż 250 sekund. Natomiast na M1 Max z 32 GB RAM generacja listu zajęła tylko 26 sekund, a odpowiedź na pytanie w 3 sekundy.

Prędkość działania modelu można sprawdzić uruchamiając Ollama z flagą „verbose” za pomocą polecenia w terminalu:

ollama run gpt-oss:20b --verbose

Wtedy po zakończeniu procesowania promptu pojawią się statystyki. Porównałem w tabeli ze sobą trzy kompaktowe modele od Google, Deepseek, Alibaba oraz OpenAI dla promptu: „Jak przeprowadzić badanie za pomocą modelowania równań strukturalnych i metody PLS-SEM w SmartPLS?„

Statystyka	gemma3:4b (3,3 GB, 3 mies.)	deepseek-r1:8b (5,2 GB, 1 mies.)	qwen3:8B (5,2GB, 1 dzień)	gpt-oss:20b (14 GB, 3 dni)
Total duration	24,44 s	3m28,74 s	1m20,86s	6m33,77 s
Load duration	80,09 ms	48,08 ms	31,74ms	68,72 ms
Prompt eval count	34	33	41	96
Prompt eval duration	167,84 ms	2,33 s	284ms	5,27 s
Prompt eval rate	202,57 tokenów/s	14,16 tokenów/s	143,22 tokenów/s	18,21 tokenów/s
Eval count	1500	4370	2606	3077
Eval duration	24,19 s	3m26,36 s	1m20,54s	6m28,43 s
Eval rate	62,01 tokenów/s	21,18 tokenów/s	32,36 tokenów/s	7,92 tokenów/s
Odpowiedź	Odpowiedź Gemma	Odpowiedź DeepSeek	Odpowiedź Qwen	Odpowiedź gpt-oss

To są tylko statystyki, ale nie sprawdzałem jakości odpowiedzi. To co zauważyłem, że najkrótsza była odpowiedź od Gemma, a Deepseek wrzucał angielskie i chiński znaki. Odpowiedzi można zobaczyć w ostatnim wierszu.

Eval rate podaje, że średnio 7,92 tokena było generowanych na sekundę, a rozpoczęcie interakcji zaczęło się już po około 5 sekundach dla modelu gpt-oss:20b.

Warto zaznaczyć, że Ollama pozwala uruchomić model w trybie offline (“airplane mode”) — to zapewnia pełną lokalność i pewność co do braku sieciowych połączeń.

Instalacja modelu gpt‑oss w LM Studio

Problem z ilością tokenów na sekundę w Ollama leży w tym, że Mac M4 ma neural-engine, który jest dedykowany do tego, by wykonywać 'obliczenia’ na rzecz modelu a Ollama go nie używa. Ollama nie obsługuje tego, by korzystać z dedykowanego hardware. LM Studio w odróżnieniu od Ollamy korzysta już z neural engine. Ollama z używa GPU przez Metal, natomiast w LM Studio ten sam sprzęt i ten sam prompt daje 34.62 tok/sec co jest 4 razy szybciej.

Wymagania sprzętowe i wydajność

Wymagania	Uwagi
Minimalny RAM	16 GB – umożliwia eksperymentowanie z modelem, to absolutne minimum
Zalecany RAM	24 GB lub więcej — poprawia wydajność i komfort użytkowania
Platformy	Mac (M-serii, np. M4 Pro/Max) działają najlepiej. Model działa również na PC z GPU (NVIDIA, Radeon) — im lepsza przepustowość pamięci, tym lepiej.

Podsumowanie

Uruchomienie gpt‑oss‑20b lokalnie na MacBooku Pro M4 Pro to świetny sposób na przetestowanie potężnego modelu AI prywatnie i bez dodatkowych kosztów. Wystarczy kilka prostych komend i odrobina cierpliwości, a masz dostęp do silnika generującego tekst działającego całkowicie lokalnie.

Jeśli chcesz prostego wyboru ale nie za szybko to wybierza Ollama. Dla lepszego wykorzystania GPU, szybszej pracy, ale też barziej złożonej konfiguracji wybierz LM Studio.

Zapisz się na newsletter wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.

Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.

Autor
Ostatnie wpisy

Artur Strzelecki

Nauczyciel w Uniwersytet Ekonomiczny w Katowicach

Niezależny specjalista, który upowszechnia wiedzę o marketingu w wyszukiwarkach internetowych. Zazwyczaj uczy studentów, a w wolnych chwilach doradza jak odnaleźć własną ścieżkę w Google.