Rzeczowo o DeepSeek – strategia, produkt, koszty, niewiadome

Posłuchaj:
Udostępnij:

W ostatnich dniach żyjemy znowu tematem sztucznej inteligencji. AI jest odmieniana przez wiele przypadków z uwagi na pojawienie się nowego modelu AI DeepSeek-V3 https://www.deepseek.com/

Skąd jest i czym jest Deep Seek AI? 

DeepSeek to chińska firma zajmująca się sztuczną inteligencją, założona w 2023 roku przez Liang Wenfenga w Hangzhou.   Startup DeepSeek wspierany jest przez High-Flyer Capital Management, chiński fundusz hedgingowy, który wykorzystuje AI do podejmowania decyzji handlowych. Buduje on własne klastry serwerów do szkolenia modeli, z których jeden z najnowszych ma ponoć 10 000 procesorów graficznych Nvidia A100 i kosztował ok. 138 milionów dolarów.

Firma specjalizuje się w tworzeniu zaawansowanych modeli językowych (LLM) o otwartym kodzie źródłowym. DeepSeek oferuje kilka modeli AI, w tym: 

  • DeepSeek V3: Duży model językowy z 671 miliardami parametrów. 
  • DeepSeek R1: Model rozumowania, który konkuruje z OpenAI. 
  • DeepSeek Janus-Pro-7B: Model do generowania obrazów. 

Firma szybko zyskała rozgłos, gdy jej aplikacja stała się najpopularniejszą darmową aplikacją w App Store w USA, wyprzedzając ChatGPT. 

Jej strategia rozwoju produktu nie polega na optymalizacji istniejących procesów, ale na ich przemyśleniu od nowa. Zamiast pytania „ile więcej GPU i więcej mocy obliczeniowej dołożyć”, zapytali: „Co zrobić inaczej, szybciej, taniej?” trzymając się zasady “wystarczająco dobrze” (jakość generowanych treści) i “wystarczająco dokładnie” (dokładność obliczeń). 

 

Jakie są różnice w stosunku do innych AI jak ChatGPT? 

 

Z informacji, jakie można wyczytać w różnych źródłach wynika, że DeepSeek wyróżnia się kilkoma kluczowymi cechami takimi jak: 

  • Efektywnością kosztową wynikająca z wytrenowany za około 5,58 miliona dolarów, co stanowi ułamek kosztów konkurencji. 
  • Wydajność modelu wynikającą z wykorzystania architektury Mixture-of-Experts (MoE), aktywująccej “tylko” 37 miliardów z 671 miliardów parametrów na żądanie. 
  • Specjalizacji modelu wykazującej lepsze wyniki w zadaniach technicznych, takich jak kodowanie, matematyka i rozumowanie logiczne niż innych. 
  • Otwartości kodu, który w przeciwieństwie do ChatGPT udostępniony został jako model jako open source. 
  • Cenzurą treści, wg której model nie zawiera treści wrażliwych i podlega ograniczeniom w kwestiach politycznych ze względu na chińskie regulacje. 

 

Krótka historia stworzenia i różnice w porównaniu z innymi AI 

 

DeepSeek został stworzony przy użyciu innowacyjnych jak na dzisiejsze standardy metod, które pozwoliły na znaczne obniżenie kosztów i czasu treningu, a przede wszystkim: 

  • Uproszczona została precyzja obliczeń przy wykorzystaniu 8-bitowych liczb zamiast 32-bitowych, co pozwoliło zaoszczędzić do 75% pamięci. 
  • Wykorzystano przetwarzanie wielofazowe poprzez analizowanie całych fragmentów tekstu jednocześnie, a nie poszczególnych słów i ich powiązań co przyspiesza działanie modelu około dwukrotnie i zmniejsza zużycie energii nawet o 90%. 
  • Uruchamiana jest tzw. Selektywna aktywacja tylko tych segmentów modelu, które są potrzebne do wykonania konkretnego zadania przez co zmniejszono zapotrzebowanie na zasoby obliczeniowe. 
  • Wykorzystano procesory Nvidia H800, nie najnowsze H100, które były dostępne przed wprowadzeniem amerykańskich sankcji. 

 

W jaki sposób można skorzystać z DeepSeek i jaki jest model jej licencjonowania? 

 

DeepSeek oferuje model open source dla swoich głównych produktów: 

  • DeepSeek R1 i inne modele są dostępne na platformie Hugging Face pod licencją MIT. 
  • Licencja pozwala na bezpłatne wykorzystanie, modyfikację i komercjalizację modeli bez ograniczeń. 
  • Użytkownicy mają pełny dostęp do kodu źródłowego i dokumentacji modeli. 
  • Firma oferuje również płatne API dla swoich modeli, z cenami znacznie niższymi niż konkurencja. 

 

Jakie dotychczas przeprowadzono testy Deep Seek AI? 

 

DeepSeek został poddany licznym testom i porównaniom z innymi modelami AI w tym: 

  • Benchmarkom matematycznym i programistycznym: DeepSeek R1 przewyższył OpenAI o1 w testach AIME, MATH-500 i SWE-bench Verified. 
  • Testom logicznym, w których osiągnął ponad 90% dokładności, przewyższając ChatGPT 
  • Generowaniu kodu wykazując lepsze wyniki w zadaniach programistycznych niż ChatGPT z zastrzeżeniem, że czasem jego kod może przekraczać limity czasowe. 
  • Generowaniu obrazów, w których podobno wykazano, że Model Janus-Pro-7B przewyższa modele OpenAI i Stability AI w generowaniu obrazów. 
  • Testom praktycznym, podczas których eksperci przeprowadzili testy porównawcze, w których DeepSeek często dorównywał lub przewyższał ChatGPT w zadaniach technicznych. 

Należy jednak zauważyć, że wiele z tych informacji i wyników pochodzi z wewnętrznych testów firmy DeepSeek oraz doniesień mediowych, a weryfikacje są nadal w toku. 

Bartosz Radziszewski

 

Źródła:
https://www.deepseek.com/ https://www.hashstudioz.com/blog/what-is-deepseek-ai-the-model-shaking-up-chatgpt-nvidia-and-the-ai-world/ https://www.deepseekv3.com/en/blog/deepseek-v3-chatgpt-comparison https://www.datacamp.com/blog/deepseek-r1 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL https://artificialanalysis.ai/models/deepseek-v3 https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://en.wikipedia.org/wiki/DeepSeek_AI https://techcrunch.com/2025/01/20/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet/ https://www.drivingeco.com/en/China’s-DeepSeek-R1-Surpasses-ChatGPT-Performance-Efficiency/ https://www.nature.com/articles/d41586-025-00229-6 https://www.youtube.com/watch?v=gq1m-k99BUQ https://www.reddit.com/r/OpenAI/comments/1ibe3n7/deepseek_ai_agents_vs_chatgpt_openai_still_better/ https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/ https://fundacjakdf-my.sharepoint.com/:w:/g/personal/bartosz_radziszewski_kdf_org_pl1/EVC3NT-yBbVJkfk2cgi2ebkB2Ua1QboBUmfxWOOiBKNkGw?e=NNp8Ve https://techfuture.pl/czy-deepseek-jest-lepszy-od-chatgpt-kompleksowe-porownanie-modeli-ai-w-2025-roku/ https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://blueneuron.pl/aplikacje/katalog/deepseek/ https://www.telepolis.pl/tech/aplikacje/czym-jest-deepseek-i-dlaczego-narobil-ostatnio-tyle-zamieszania https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://cyfrowa.rp.pl/globalne-interesy/art41731341-punkt-zwrotny-w-historii-ai-czym-jest-deepseek-wielka-nadzieja-chin https://apidog.com/blog/deepseek-r1-review-api/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://techsetter.pl/deepseek-vs-chatgpt-ktory-radzi-sobie-lepiej/