W ostatnich dniach żyjemy znowu tematem sztucznej inteligencji. AI jest odmieniana przez wiele przypadków z uwagi na pojawienie się nowego modelu AI DeepSeek-V3 https://www.deepseek.com/
Skąd jest i czym jest Deep Seek AI?
DeepSeek to chińska firma zajmująca się sztuczną inteligencją, założona w 2023 roku przez Liang Wenfenga w Hangzhou. Startup DeepSeek wspierany jest przez High-Flyer Capital Management, chiński fundusz hedgingowy, który wykorzystuje AI do podejmowania decyzji handlowych. Buduje on własne klastry serwerów do szkolenia modeli, z których jeden z najnowszych ma ponoć 10 000 procesorów graficznych Nvidia A100 i kosztował ok. 138 milionów dolarów.
Firma specjalizuje się w tworzeniu zaawansowanych modeli językowych (LLM) o otwartym kodzie źródłowym. DeepSeek oferuje kilka modeli AI, w tym:
- DeepSeek V3: Duży model językowy z 671 miliardami parametrów.
- DeepSeek R1: Model rozumowania, który konkuruje z OpenAI.
- DeepSeek Janus-Pro-7B: Model do generowania obrazów.
Firma szybko zyskała rozgłos, gdy jej aplikacja stała się najpopularniejszą darmową aplikacją w App Store w USA, wyprzedzając ChatGPT.
Jej strategia rozwoju produktu nie polega na optymalizacji istniejących procesów, ale na ich przemyśleniu od nowa. Zamiast pytania „ile więcej GPU i więcej mocy obliczeniowej dołożyć”, zapytali: „Co zrobić inaczej, szybciej, taniej?” trzymając się zasady “wystarczająco dobrze” (jakość generowanych treści) i “wystarczająco dokładnie” (dokładność obliczeń).
Jakie są różnice w stosunku do innych AI jak ChatGPT?
Z informacji, jakie można wyczytać w różnych źródłach wynika, że DeepSeek wyróżnia się kilkoma kluczowymi cechami takimi jak:
- Efektywnością kosztową wynikająca z wytrenowany za około 5,58 miliona dolarów, co stanowi ułamek kosztów konkurencji.
- Wydajność modelu wynikającą z wykorzystania architektury Mixture-of-Experts (MoE), aktywująccej “tylko” 37 miliardów z 671 miliardów parametrów na żądanie.
- Specjalizacji modelu wykazującej lepsze wyniki w zadaniach technicznych, takich jak kodowanie, matematyka i rozumowanie logiczne niż innych.
- Otwartości kodu, który w przeciwieństwie do ChatGPT udostępniony został jako model jako open source.
- Cenzurą treści, wg której model nie zawiera treści wrażliwych i podlega ograniczeniom w kwestiach politycznych ze względu na chińskie regulacje.
Krótka historia stworzenia i różnice w porównaniu z innymi AI
DeepSeek został stworzony przy użyciu innowacyjnych jak na dzisiejsze standardy metod, które pozwoliły na znaczne obniżenie kosztów i czasu treningu, a przede wszystkim:
- Uproszczona została precyzja obliczeń przy wykorzystaniu 8-bitowych liczb zamiast 32-bitowych, co pozwoliło zaoszczędzić do 75% pamięci.
- Wykorzystano przetwarzanie wielofazowe poprzez analizowanie całych fragmentów tekstu jednocześnie, a nie poszczególnych słów i ich powiązań co przyspiesza działanie modelu około dwukrotnie i zmniejsza zużycie energii nawet o 90%.
- Uruchamiana jest tzw. Selektywna aktywacja tylko tych segmentów modelu, które są potrzebne do wykonania konkretnego zadania przez co zmniejszono zapotrzebowanie na zasoby obliczeniowe.
- Wykorzystano procesory Nvidia H800, nie najnowsze H100, które były dostępne przed wprowadzeniem amerykańskich sankcji.
W jaki sposób można skorzystać z DeepSeek i jaki jest model jej licencjonowania?
DeepSeek oferuje model open source dla swoich głównych produktów:
- DeepSeek R1 i inne modele są dostępne na platformie Hugging Face pod licencją MIT.
- Licencja pozwala na bezpłatne wykorzystanie, modyfikację i komercjalizację modeli bez ograniczeń.
- Użytkownicy mają pełny dostęp do kodu źródłowego i dokumentacji modeli.
- Firma oferuje również płatne API dla swoich modeli, z cenami znacznie niższymi niż konkurencja.
Jakie dotychczas przeprowadzono testy Deep Seek AI?
DeepSeek został poddany licznym testom i porównaniom z innymi modelami AI w tym:
- Benchmarkom matematycznym i programistycznym: DeepSeek R1 przewyższył OpenAI o1 w testach AIME, MATH-500 i SWE-bench Verified.
- Testom logicznym, w których osiągnął ponad 90% dokładności, przewyższając ChatGPT
- Generowaniu kodu wykazując lepsze wyniki w zadaniach programistycznych niż ChatGPT z zastrzeżeniem, że czasem jego kod może przekraczać limity czasowe.
- Generowaniu obrazów, w których podobno wykazano, że Model Janus-Pro-7B przewyższa modele OpenAI i Stability AI w generowaniu obrazów.
- Testom praktycznym, podczas których eksperci przeprowadzili testy porównawcze, w których DeepSeek często dorównywał lub przewyższał ChatGPT w zadaniach technicznych.
Należy jednak zauważyć, że wiele z tych informacji i wyników pochodzi z wewnętrznych testów firmy DeepSeek oraz doniesień mediowych, a weryfikacje są nadal w toku.
Bartosz Radziszewski
Źródła:
https://www.deepseek.com/ https://www.hashstudioz.com/blog/what-is-deepseek-ai-the-model-shaking-up-chatgpt-nvidia-and-the-ai-world/ https://www.deepseekv3.com/en/blog/deepseek-v3-chatgpt-comparison https://www.datacamp.com/blog/deepseek-r1 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/LICENSE-MODEL https://artificialanalysis.ai/models/deepseek-v3 https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://en.wikipedia.org/wiki/DeepSeek_AI https://techcrunch.com/2025/01/20/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet/ https://www.drivingeco.com/en/China’s-DeepSeek-R1-Surpasses-ChatGPT-Performance-Efficiency/ https://www.nature.com/articles/d41586-025-00229-6 https://www.youtube.com/watch?v=gq1m-k99BUQ https://www.reddit.com/r/OpenAI/comments/1ibe3n7/deepseek_ai_agents_vs_chatgpt_openai_still_better/ https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/ https://fundacjakdf-my.sharepoint.com/:w:/g/personal/bartosz_radziszewski_kdf_org_pl1/EVC3NT-yBbVJkfk2cgi2ebkB2Ua1QboBUmfxWOOiBKNkGw?e=NNp8Ve https://techfuture.pl/czy-deepseek-jest-lepszy-od-chatgpt-kompleksowe-porownanie-modeli-ai-w-2025-roku/ https://techcrunch.com/2025/01/27/deepseek-claims-its-reasoning-model-beats-openais-o1-on-certain-benchmarks/ https://blueneuron.pl/aplikacje/katalog/deepseek/ https://www.telepolis.pl/tech/aplikacje/czym-jest-deepseek-i-dlaczego-narobil-ostatnio-tyle-zamieszania https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://mashable.com/article/deepseek-ai-vs-openai-chatgpt https://mamstartup.pl/jak-deepseek-zmienia-myslenie-o-ai/ https://cyfrowa.rp.pl/globalne-interesy/art41731341-punkt-zwrotny-w-historii-ai-czym-jest-deepseek-wielka-nadzieja-chin https://apidog.com/blog/deepseek-r1-review-api/ https://www.technewsday.com/2025/01/26/chinas-deepseek-r1-ai-model-cuts-costs-by-over-98-challenging-u-s-tech-giants/ https://techsetter.pl/deepseek-vs-chatgpt-ktory-radzi-sobie-lepiej/