Jak zainstalować i uruchomić OpenAI gpt‑oss‑20b na własnym komputerze?

gpt-oss na komputerze

OpenAI kilka dni temu udostępniło dwa otwarte modele: gpt‑oss‑20b i gpt‑oss‑120b, licencjonowane na licencji Apache 2.0. Umożliwiają one lokalne uruchamianie zaawansowanej sztucznej inteligencji, czyli bez konieczności wysyłania danych do chmury. Model gpt‑oss‑20b jest zoptymalizowany pod kątem sprzętu konsumenckiego i wymaga zaledwie około 16 GB pamięci RAM.


Festiwal SEO 2025 Katowice

Zazwyczaj modele działają w chmurze, bo użytkownik korzysta z interfejsu, a model działa na potężnych zasobach zdalnych. Jednocześnie możliwe jest uruchomienie ich lokalnie, o ile komputer ma wystarczająco szybki procesor i odpowiednią ilość pamięci RAM. MacBooki Pro i Air w wyższej konfiguracji bez trudu obsłużą te modele.

Jedną z największych zalet lokalnego uruchomienia jest prywatność, bo nie wysyłasz danych na zewnątrz, wszystko działa lokalnie. Obecne wersje modeli lokalnych obsługują tylko generowanie tekstu, ale są w pełni konfigurowalne, a więcej informacji znajdziesz w oficjalnym artykule OpenAI prezentującym modele gpt-oss.

Instalacja modelu gpt‑oss w Ollama

Do instalacji przyda się oprogramowanie Ollama, dostępne na systemy Windows, Linux oraz macOS. Można je pobrać ze strony: https://ollama.com/download

Pobranie i uruchomienie modelu

Na macOS (ale analogicznie na innych systemach) wystarczy uruchomić terminal i wpisać:

  • ollama pull gpt‑oss:20b
  • ollama run gpt‑oss:20b

Komenda pull pobiera model (zajmuje ok. 15 GB miejsca na dysku)

Komenda run uruchamia model — możesz to zrobić przez terminal lub interfejsu aplikacji Ollama, wybierając model z listy.

Działanie modelu gpt‑oss‑20b

Korzystanie z modelu przypomina interakcję z lokalnym ChatGPT. Można wpisywać pytania, a model odpowiada podobnie jak w przeglądarce. Jego szybkość działania zależy od sprzętu. W moim przypadku to jest MacBook Pro z procesorem M4Pro z 24 GB RAM i układem CPU 14 rdzeni + GPU 20 rdzeni i odpowiedzi pojawiają się bardzo szybko.

  • „Hello, rozumiesz po polsku” — odpowiedź pojawiła się w 2,4 sekundy.
  • „Świetnie, w takim razie wytłumacz mi jak dla laika zasady prowadzenia badań z wykorzystaniem modelowania równań strukturalnych za pomocą PLS-SEM i programu SmartPLS.” – odpowiedz generowana w około 7 sekund.

Prędkość generowania tokenów na moim komputerze wynosi około 8 tokenów na sekundę, co jest świetnym wynikiem dla lokalnego sprzętu.

Zapewne znaczenie ma okno kontekstu. Domyślnie po zainstalowaniu Ollama jest to 4k, ale można zwiększyć do 128k, co jest wielkością przyzwoitą do wydajnej pracy.

W sieci pojawiają się wpisy użytkowników, że modele mogą działać bardzo powoli (nawet kilka minut) na sprzęcie z mniejszą ilością RAM lub słabszym CPU. Dla porównania, użytkownicy z M4 (16 GB RAM) zgłaszają, że uzyskanie ~77 tokenów zajęło aż 250 sekund. Natomiast na M1 Max z 32 GB RAM generacja listu zajęła tylko 26 sekund, a odpowiedź na pytanie w 3 sekundy.

Prędkość działania modelu można sprawdzić uruchamiając Ollama z flagą „verbose” za pomocą polecenia w terminalu:

ollama run gpt-oss:20b --verbose

Wtedy po zakończeniu procesowania promptu pojawią się statystyki. Porównałem w tabeli ze sobą trzy kompaktowe modele od Google, Deepseek, Alibaba oraz OpenAI dla promptu: „Jak przeprowadzić badanie za pomocą modelowania równań strukturalnych i metody PLS-SEM w SmartPLS?

Statystykagemma3:4b
(3,3 GB, 3 mies.)
deepseek-r1:8b
(5,2 GB, 1 mies.)
qwen3:8B (5,2GB, 1 dzień)gpt-oss:20b
(14 GB, 3 dni)
Total duration24,44 s3m28,74 s1m20,86s6m33,77 s
Load duration80,09 ms48,08 ms31,74ms68,72 ms
Prompt eval count34334196
Prompt eval duration167,84 ms2,33 s284ms5,27 s
Prompt eval rate202,57 tokenów/s14,16 tokenów/s143,22 tokenów/s18,21 tokenów/s
Eval count1500437026063077
Eval duration24,19 s3m26,36 s1m20,54s6m28,43 s
Eval rate62,01 tokenów/s21,18 tokenów/s32,36 tokenów/s7,92 tokenów/s
OdpowiedźOdpowiedź GemmaOdpowiedź DeepSeekOdpowiedź QwenOdpowiedź gpt-oss

To są tylko statystyki, ale nie sprawdzałem jakości odpowiedzi. To co zauważyłem, że najkrótsza była odpowiedź od Gemma, a Deepseek wrzucał angielskie i chiński znaki. Odpowiedzi można zobaczyć w ostatnim wierszu.

Eval rate podaje, że średnio 7,92 tokena było generowanych na sekundę, a rozpoczęcie interakcji zaczęło się już po około 5 sekundach dla modelu gpt-oss:20b.

Warto zaznaczyć, że Ollama pozwala uruchomić model w trybie offline (“airplane mode”) — to zapewnia pełną lokalność i pewność co do braku sieciowych połączeń.

Instalacja modelu gpt‑oss w LM Studio

Problem z ilością tokenów na sekundę w Ollama leży w tym, że Mac M4 ma neural-engine, który jest dedykowany do tego, by wykonywać 'obliczenia’ na rzecz modelu a Ollama go nie używa. Ollama nie obsługuje tego, by korzystać z dedykowanego hardware. LM Studio w odróżnieniu od Ollamy korzysta już z neural engine. Ollama z używa GPU przez Metal, natomiast w LM Studio ten sam sprzęt i ten sam prompt daje 34.62 tok/sec co jest 4 razy szybciej.

LM Studio gpt-oss 20b na Macbook M4Pro

Wymagania sprzętowe i wydajność

WymaganiaUwagi
Minimalny RAM16 GB – umożliwia eksperymentowanie z modelem, to absolutne minimum 
Zalecany RAM24 GB lub więcej — poprawia wydajność i komfort użytkowania
PlatformyMac (M-serii, np. M4 Pro/Max) działają najlepiej. Model działa również na PC z GPU (NVIDIA, Radeon) — im lepsza przepustowość pamięci, tym lepiej.

Podsumowanie

Uruchomienie gpt‑oss‑20b lokalnie na MacBooku Pro M4 Pro to świetny sposób na przetestowanie potężnego modelu AI prywatnie i bez dodatkowych kosztów. Wystarczy kilka prostych komend i odrobina cierpliwości, a masz dostęp do silnika generującego tekst działającego całkowicie lokalnie.

Jeśli chcesz prostego wyboru ale nie za szybko to wybierza Ollama. Dla lepszego wykorzystania GPU, szybszej pracy, ale też barziej złożonej konfiguracji wybierz LM Studio.


Zapisz się na newsletter wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.

Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.

The following two tabs change content below.

Artur Strzelecki

Niezależny specjalista, który upowszechnia wiedzę o marketingu w wyszukiwarkach internetowych. Zazwyczaj uczy studentów, ale w wolnych chwilach doradza jak odnaleźć własną ścieżkę w Google.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *