W połowie sierpnia ByteDance Seed Team (czyli TikTok) udostępnił nowy otwartoźródłowy model AI Seed‑OSS‑36B (warianty Base z i bez danych syntetycznych oraz Instruct), objęty licencją Apache‑2.0 – do darmowego użytku komercyjnego i badawczego. Jako pierwszy model lokalny posiada kontekst od długości 512k.
Najważniejsze cechy techniczne tego modelu to:
- 36 miliardów parametrów,
- 512 000-tokenowy kontekst natywny – rekordowa długość znacznie wyprzedzająca nawet GPT‑5
- Funkcja „thinking budget” – możliwość kontrolowanego rozkładu procesu wnioskowania, w wielu benchmarkach znacząco poprawiająca wydajność
- Wersje „Base” (z/s bez danych syntetycznych) oraz „Instruct” – dla różnych potrzeb: badania vs. gotowe do zastosowania modele
Instalacja ByteDance Seed OSS 36B na własnym komputerze
Najlepiej wykorzystać do instalacji program LM Studio, który można pobrać pod tym adresem https://lmstudio.ai/download
Po instalacji można przejść w menu po lewej stronie do przeglądu modeli dostępnych do pobrania z Hugging Face. Pamiętajmy, że modele zapisywane są w dwóch trybach: GGUF i MLX. To są formaty dla lokalnych modeli AI.
Rysunek 1. Wyszukiwarka modeli w LM Studio

GGUF
GGUF (Generic GPT Unified Format, też nazywany GPT-Generated Unified Format) to format plików binarnych zaprojektowany głównie dla efektywnego ładowania, przechowywania i inferencji modeli językowych, takich jak LLaMA w systemie llama.cpp
Cechy GGUF:
- Trzyma modele w jednym pliku z tensorami i pełną metadanyką (architektura, tokenizacja, hyperparametry).
- Obsługuje różnorodne techniki kwantyzacji — od 2‑bitowej (np. IQ2_M), przez 4‑bitową (Q4_K_M), aż po 8‑bitową (Q8_0) — z opcjami jak matryce ważności w IQ4_XS.
- Wysoka szybkość ładowania i kompatybilność między wersjami – bez “łamania” starszych modeli.
- Format ten wyparł wcześniejszy GGML jako domyślny w llama.cpp i jest wspierany przez narzędzia takie jak koboldcpp, ollama, vLLM itp.
MLX
MLX to framework stworzony przez Apple (część Apple Machine Learning Research) do trenowania i uruchamiania modeli na Apple Silicon (M1/M2/M3/M4), z integracją z Metal, ANE, AMX.
Charakterystyka MLX:
- Obsługuje zarówno modele własne, jak i przekonwertowane (np. z HF) — nawet te w formacie GGUF.
- Główna przewaga: optymalizacja pod specyficzne GPU/CPU Apple, co przekłada się na doskonałą wydajność przez MLX‑owe operacje kwantyzacji.
- Kwantyzacja MLX obejmuje głównie 4‑ i 8‑bitowe formaty oraz integrację z MLX‑LM.
- Wadą jest ograniczona liczba opcji kwantyzacji i mniejsza precyzja, szczególnie w niskich bitowych trybach, jak 2‑bitowa — czasami skutkująca błędami językowymi.
W wątku na r/LocalLLaMA użytkownicy Reddit zauważają wyraźne różnice. W skrócie: GGUF zazwyczaj oferuje lepszą jakość przy tym samym poziomie kwantyzacji, natomiast MLX jest szybszy, ale może tracić na precyzji.
ByteDance wydał swój model w technologii seed oss, do którego LM Studio musiał wydać nową wersją llama.cpp (wersja 1.48.0), wcześniejsze wersje nie ładowały tego modelu.
Porównanie modeli ByteDance, Qwen, Gemma, GPT-oss i Deepseek
Do porównania modeli wykorzystano Macbook Pro M4Pro, 24GB RAM, 14CPU, 20GPU. Jednak okazuje się, że w tej konfiguracji domyślny model ByteDance Seed OSS 36B Instruct (Q4_K_M) ma rozmiar 21,76 GB i nie uruchamia się na tym komputerze, więc pobrano odchudzoną wersję tego modelu (Q2_K_L) w rozmiarze 14,38 GB.
Aby przetestować w pełni model ByteDance Seed OSS 36B Instruct (Q4_K_M), został on uruchomiony na komputerze Windows 11 z procesorem AMD Ryzen 7 6800H z Radeon Graphics, 32GB RAM, NVIDIA GeForce RTX 3060 Laptop GPU, dane pełnej wersji Seed-OSS-36B są w ostatnim wierszu.
Rysunek 2. Rozmiar i parametry modeli AI w LM Studio

Tabela 1. Porównanie prędkości modeli AI na lokalnym komputerze w LM Studio
Prompt: Jak przeprowadzić badanie za pomocą modelowania równań strukturalnych i metody PLS-SEM w SmartPLS?
Model | Rozmiar | Prędkość | Liczba tokenów | Czas do pierwszego tokenu |
ByteDance Seed‑OSS‑36B Instruct (Q2_K_L) | 14,38 GB | 7,46 tok/sek | 3772 tokenów | 1,69s |
DeepsekR1 0528 Qwen3 8B | 4,62 GB | 45,29 tok/sek | 3524 tokenów | 0,53s |
Qwen3 14B | 8,32 GB | 27,68 tok/sek | 2706 tokenów | 0,49s |
Gemma 3 12B | 8,07 GB | 31,42 tok/sek | 1640 tokenów | 5,67s |
OpenAI gpt-oss 20B | 12,11 GB | 34,62 tok/sek | 2171 tokenów | 0,31s |
ByteDance Seed‑OSS‑36B Instruct (Q4_K_M)* | 21,76 GB | 1,92 tok /sek | 4510 tokenów | 11,26s |
* AMD Ryzen 7 6800H z Radeon Graphics, 32GB RAM, NVIDIA GeForce RTX 3060 Laptop GPU, dla porównania, ten sam prompt w modelu OpenAI gpt-oss 20B uzyskał, 12,84 tok/sek, 2134 tokenów i 1,17s. Oznacza to że, ta konfiguracja AMD Ryzen 6800H jest około trzykrotnie wolniejsza od Apple M4Pro.
Wyniki pokazały że na komputerze z 2022 roku i 32GB RAM model Seed-OSS-36B ładuje się całkowicie, jednak jego prędkość działania nie pozwala na komfortową pracę, bowiem produkuje około 2 tokeny na sekundę i całość odpowiedzi na zadany prompt trwała ok 40 minut.
W przypadku komputera z 2024 roku i nowszym procesorem ale tylko 24GB RAM, okrojony model Seed‑OSS‑36B działa z prędkością 7,5 tokena na sekundę. Jest to wynik trudno zadowalający. Do tego dochodzi słabsza obsługa j. polskiego niż w modelach Gemma czy GPT-oss, ponieważ w kontekście odpowiedzi w j.polskim pojawiły się fragmenty z j.chińskiego.
Generalnie rozwój modeli, które można stosować lokalnie, pokazuje, że mamy różne możliwości ich uruchamiania i korzystania. Warto wybrać dla siebie ten, który działa optymalnie na posiadanej maszynie.
Zapisz się na newsletter wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.
Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.
Artur Strzelecki
Ostatnie wpisy Artur Strzelecki (zobacz wszystkie)
- SEO w praktyce – Książka - 10 września 2025
- Jak działa algorytm Facebooka - 8 września 2025
- Google musi udostępnić dane konkurencji, ale zachowuje Chrome i Androida - 3 września 2025