ByteDance (TikTok) wydał darmowy model AI Seed-OSS-36B do pracy lokalnej

W połowie sierpnia ByteDance Seed Team (czyli TikTok) udostępnił nowy otwartoźródłowy model AI Seed‑OSS‑36B (warianty Base z i bez danych syntetycznych oraz Instruct), objęty licencją Apache‑2.0 – do darmowego użytku komercyjnego i badawczego. Jako pierwszy model lokalny posiada kontekst od długości 512k.

Najważniejsze cechy techniczne tego modelu to:

36 miliardów parametrów,
512 000-tokenowy kontekst natywny – rekordowa długość znacznie wyprzedzająca nawet GPT‑5
Funkcja „thinking budget” – możliwość kontrolowanego rozkładu procesu wnioskowania, w wielu benchmarkach znacząco poprawiająca wydajność
Wersje „Base” (z/s bez danych syntetycznych) oraz „Instruct” – dla różnych potrzeb: badania vs. gotowe do zastosowania modele

Instalacja ByteDance Seed OSS 36B na własnym komputerze

Najlepiej wykorzystać do instalacji program LM Studio, który można pobrać pod tym adresem https://lmstudio.ai/download

Po instalacji można przejść w menu po lewej stronie do przeglądu modeli dostępnych do pobrania z Hugging Face. Pamiętajmy, że modele zapisywane są w dwóch trybach: GGUF i MLX. To są formaty dla lokalnych modeli AI.

Rysunek 1. Wyszukiwarka modeli w LM Studio

GGUF

GGUF (Generic GPT Unified Format, też nazywany GPT-Generated Unified Format) to format plików binarnych zaprojektowany głównie dla efektywnego ładowania, przechowywania i inferencji modeli językowych, takich jak LLaMA w systemie llama.cpp

Cechy GGUF:

Trzyma modele w jednym pliku z tensorami i pełną metadanyką (architektura, tokenizacja, hyperparametry).
Obsługuje różnorodne techniki kwantyzacji — od 2‑bitowej (np. IQ2_M), przez 4‑bitową (Q4_K_M), aż po 8‑bitową (Q8_0) — z opcjami jak matryce ważności w IQ4_XS.
Wysoka szybkość ładowania i kompatybilność między wersjami – bez “łamania” starszych modeli.
Format ten wyparł wcześniejszy GGML jako domyślny w llama.cpp i jest wspierany przez narzędzia takie jak koboldcpp, ollama, vLLM itp.

MLX

MLX to framework stworzony przez Apple (część Apple Machine Learning Research) do trenowania i uruchamiania modeli na Apple Silicon (M1/M2/M3/M4), z integracją z Metal, ANE, AMX.

Charakterystyka MLX:

Obsługuje zarówno modele własne, jak i przekonwertowane (np. z HF) — nawet te w formacie GGUF.
Główna przewaga: optymalizacja pod specyficzne GPU/CPU Apple, co przekłada się na doskonałą wydajność przez MLX‑owe operacje kwantyzacji.
Kwantyzacja MLX obejmuje głównie 4‑ i 8‑bitowe formaty oraz integrację z MLX‑LM.
Wadą jest ograniczona liczba opcji kwantyzacji i mniejsza precyzja, szczególnie w niskich bitowych trybach, jak 2‑bitowa — czasami skutkująca błędami językowymi.

W wątku na r/LocalLLaMA użytkownicy Reddit zauważają wyraźne różnice. W skrócie: GGUF zazwyczaj oferuje lepszą jakość przy tym samym poziomie kwantyzacji, natomiast MLX jest szybszy, ale może tracić na precyzji.

ByteDance wydał swój model w technologii seed oss, do którego LM Studio musiał wydać nową wersją llama.cpp (wersja 1.48.0), wcześniejsze wersje nie ładowały tego modelu.

Porównanie modeli ByteDance, Qwen, Gemma, GPT-oss i Deepseek

Do porównania modeli wykorzystano Macbook Pro M4Pro, 24GB RAM, 14CPU, 20GPU. Jednak okazuje się, że w tej konfiguracji domyślny model ByteDance Seed OSS 36B Instruct (Q4_K_M) ma rozmiar 21,76 GB i nie uruchamia się na tym komputerze, więc pobrano odchudzoną wersję tego modelu (Q2_K_L) w rozmiarze 14,38 GB.

Aby przetestować w pełni model ByteDance Seed OSS 36B Instruct (Q4_K_M), został on uruchomiony na komputerze Windows 11 z procesorem AMD Ryzen 7 6800H z Radeon Graphics, 32GB RAM, NVIDIA GeForce RTX 3060 Laptop GPU, dane pełnej wersji Seed-OSS-36B są w ostatnim wierszu.

Rysunek 2. Rozmiar i parametry modeli AI w LM Studio

Tabela 1. Porównanie prędkości modeli AI na lokalnym komputerze w LM Studio

Prompt: Jak przeprowadzić badanie za pomocą modelowania równań strukturalnych i metody PLS-SEM w SmartPLS?

Model	Rozmiar	Prędkość	Liczba tokenów	Czas do pierwszego tokenu
ByteDance Seed‑OSS‑36B Instruct (Q2_K_L)	14,38 GB	7,46 tok/sek	3772 tokenów	1,69s
DeepsekR1 0528 Qwen3 8B	4,62 GB	45,29 tok/sek	3524 tokenów	0,53s
Qwen3 14B	8,32 GB	27,68 tok/sek	2706 tokenów	0,49s
Gemma 3 12B	8,07 GB	31,42 tok/sek	1640 tokenów	5,67s
OpenAI gpt-oss 20B	12,11 GB	34,62 tok/sek	2171 tokenów	0,31s
ByteDance Seed‑OSS‑36B Instruct (Q4_K_M)*	21,76 GB	1,92 tok /sek	4510 tokenów	11,26s

* AMD Ryzen 7 6800H z Radeon Graphics, 32GB RAM, NVIDIA GeForce RTX 3060 Laptop GPU, dla porównania, ten sam prompt w modelu OpenAI gpt-oss 20B uzyskał, 12,84 tok/sek, 2134 tokenów i 1,17s. Oznacza to że, ta konfiguracja AMD Ryzen 6800H jest około trzykrotnie wolniejsza od Apple M4Pro.

Wyniki pokazały że na komputerze z 2022 roku i 32GB RAM model Seed-OSS-36B ładuje się całkowicie, jednak jego prędkość działania nie pozwala na komfortową pracę, bowiem produkuje około 2 tokeny na sekundę i całość odpowiedzi na zadany prompt trwała ok 40 minut.

W przypadku komputera z 2024 roku i nowszym procesorem ale tylko 24GB RAM, okrojony model Seed‑OSS‑36B działa z prędkością 7,5 tokena na sekundę. Jest to wynik trudno zadowalający. Do tego dochodzi słabsza obsługa j. polskiego niż w modelach Gemma czy GPT-oss, ponieważ w kontekście odpowiedzi w j.polskim pojawiły się fragmenty z j.chińskiego.

Generalnie rozwój modeli, które można stosować lokalnie, pokazuje, że mamy różne możliwości ich uruchamiania i korzystania. Warto wybrać dla siebie ten, który działa optymalnie na posiadanej maszynie.

Zapisz się na newsletter wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.

Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.

Autor
Ostatnie wpisy

Artur Strzelecki

Nauczyciel w Uniwersytet Ekonomiczny w Katowicach

Niezależny specjalista, który upowszechnia wiedzę o marketingu w wyszukiwarkach internetowych. Zazwyczaj uczy studentów, a w wolnych chwilach doradza jak odnaleźć własną ścieżkę w Google.