Rzeczowo o DeepSeek - strategia, produkt, koszty, niewiadome

W ostatnich dniach żyjemy znowu tematem sztucznej inteligencji. AI jest odmieniana przez wiele przypadków z uwagi na pojawienie się nowego modelu AI DeepSeek-V3 https://www.deepseek.com/

Skąd jest i czym jest Deep Seek AI?

DeepSeek to chińska firma zajmująca się sztuczną inteligencją, założona w 2023 roku przez Liang Wenfenga w Hangzhou. Startup DeepSeek wspierany jest przez High-Flyer Capital Management, chiński fundusz hedgingowy, który wykorzystuje AI do podejmowania decyzji handlowych. Buduje on własne klastry serwerów do szkolenia modeli, z których jeden z najnowszych ma ponoć 10 000 procesorów graficznych Nvidia A100 i kosztował ok. 138 milionów dolarów.

Firma specjalizuje się w tworzeniu zaawansowanych modeli językowych (LLM) o otwartym kodzie źródłowym. DeepSeek oferuje kilka modeli AI, w tym:

DeepSeek V3: Duży model językowy z 671 miliardami parametrów.

DeepSeek R1: Model rozumowania, który konkuruje z OpenAI.

DeepSeek Janus-Pro-7B: Model do generowania obrazów.

Firma szybko zyskała rozgłos, gdy jej aplikacja stała się najpopularniejszą darmową aplikacją w App Store w USA, wyprzedzając ChatGPT.

Jej strategia rozwoju produktu nie polega na optymalizacji istniejących procesów, ale na ich przemyśleniu od nowa. Zamiast pytania „ile więcej GPU i więcej mocy obliczeniowej dołożyć”, zapytali: „Co zrobić inaczej, szybciej, taniej?” trzymając się zasady “wystarczająco dobrze” (jakość generowanych treści) i “wystarczająco dokładnie” (dokładność obliczeń).

Jakie są różnice w stosunku do innych AI jak ChatGPT?

Z informacji, jakie można wyczytać w różnych źródłach wynika, że DeepSeek wyróżnia się kilkoma kluczowymi cechami takimi jak:

Efektywnością kosztową wynikająca z wytrenowany za około 5,58 miliona dolarów, co stanowi ułamek kosztów konkurencji.

Wydajność modelu wynikającą z wykorzystania architektury Mixture-of-Experts (MoE), aktywująccej “tylko” 37 miliardów z 671 miliardów parametrów na żądanie.

Specjalizacji modelu wykazującej lepsze wyniki w zadaniach technicznych, takich jak kodowanie, matematyka i rozumowanie logiczne niż innych.

Otwartości kodu, który w przeciwieństwie do ChatGPT udostępniony został jako model jako open source.

Cenzurą treści, wg której model nie zawiera treści wrażliwych i podlega ograniczeniom w kwestiach politycznych ze względu na chińskie regulacje.

Krótka historia stworzenia i różnice w porównaniu z innymi AI

DeepSeek został stworzony przy użyciu innowacyjnych jak na dzisiejsze standardy metod, które pozwoliły na znaczne obniżenie kosztów i czasu treningu, a przede wszystkim:

Uproszczona została precyzja obliczeń przy wykorzystaniu 8-bitowych liczb zamiast 32-bitowych, co pozwoliło zaoszczędzić do 75% pamięci.

Wykorzystano przetwarzanie wielofazowe poprzez analizowanie całych fragmentów tekstu jednocześnie, a nie poszczególnych słów i ich powiązań co przyspiesza działanie modelu około dwukrotnie i zmniejsza zużycie energii nawet o 90%.

Uruchamiana jest tzw. Selektywna aktywacja tylko tych segmentów modelu, które są potrzebne do wykonania konkretnego zadania przez co zmniejszono zapotrzebowanie na zasoby obliczeniowe.

Wykorzystano procesory Nvidia H800, nie najnowsze H100, które były dostępne przed wprowadzeniem amerykańskich sankcji.

W jaki sposób można skorzystać z DeepSeek i jaki jest model jej licencjonowania?

DeepSeek oferuje model open source dla swoich głównych produktów:

DeepSeek R1 i inne modele są dostępne na platformie Hugging Face pod licencją MIT.

Licencja pozwala na bezpłatne wykorzystanie, modyfikację i komercjalizację modeli bez ograniczeń.

Użytkownicy mają pełny dostęp do kodu źródłowego i dokumentacji modeli.

Firma oferuje również płatne API dla swoich modeli, z cenami znacznie niższymi niż konkurencja.

Jakie dotychczas przeprowadzono testy Deep Seek AI?

DeepSeek został poddany licznym testom i porównaniom z innymi modelami AI w tym:

Benchmarkom matematycznym i programistycznym: DeepSeek R1 przewyższył OpenAI o1 w testach AIME, MATH-500 i SWE-bench Verified.
Testom logicznym, w których osiągnął ponad 90% dokładności, przewyższając ChatGPT
Generowaniu kodu wykazując lepsze wyniki w zadaniach programistycznych niż ChatGPT z zastrzeżeniem, że czasem jego kod może przekraczać limity czasowe.
Generowaniu obrazów, w których podobno wykazano, że Model Janus-Pro-7B przewyższa modele OpenAI i Stability AI w generowaniu obrazów.
Testom praktycznym, podczas których eksperci przeprowadzili testy porównawcze, w których DeepSeek często dorównywał lub przewyższał ChatGPT w zadaniach technicznych.

Należy jednak zauważyć, że wiele z tych informacji i wyników pochodzi z wewnętrznych testów firmy DeepSeek oraz doniesień mediowych, a weryfikacje są nadal w toku.

Bartosz Radziszewski

Źródła:
https://www.deepseek.com/ https://www.hashstudioz.com/blog/what-is-deepseek-ai-the-model-shaking-up-chatgpt-nvidia-and-the-ai-world/ https://www.deepseekv3.com/en/blog/deepseek-v3-chatgpt-comparison https://www.datacamp.com/blog/deepseek-r1 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL https://artificialanalysis.ai/models/deepseek-v3 https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://en.wikipedia.org/wiki/DeepSeek_AI https://techcrunch.com/2025/01/20/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet/ https://www.drivingeco.com/en/China’s-DeepSeek-R1-Surpasses-ChatGPT-Performance-Efficiency/ https://www.nature.com/articles/d41586-025-00229-6 https://www.youtube.com/watch?v=gq1m-k99BUQ https://www.reddit.com/r/OpenAI/comments/1ibe3n7/deepseek_ai_agents_vs_chatgpt_openai_still_better/ https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/ https://fundacjakdf-my.sharepoint.com/:w:/g/personal/bartosz_radziszewski_kdf_org_pl1/EVC3NT-yBbVJkfk2cgi2ebkB2Ua1QboBUmfxWOOiBKNkGw?e=NNp8Ve https://techfuture.pl/czy-deepseek-jest-lepszy-od-chatgpt-kompleksowe-porownanie-modeli-ai-w-2025-roku/ https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://blueneuron.pl/aplikacje/katalog/deepseek/ https://www.telepolis.pl/tech/aplikacje/czym-jest-deepseek-i-dlaczego-narobil-ostatnio-tyle-zamieszania https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://cyfrowa.rp.pl/globalne-interesy/art41731341-punkt-zwrotny-w-historii-ai-czym-jest-deepseek-wielka-nadzieja-chin https://apidog.com/blog/deepseek-r1-review-api/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://techsetter.pl/deepseek-vs-chatgpt-ktory-radzi-sobie-lepiej/