What it Takes to Compete in aI with The Latent Space Podcast > 最新物件

본문 바로가기
사이트 내 전체검색


회원로그인

最新物件

ゲストハウス | What it Takes to Compete in aI with The Latent Space Podcast

ページ情報

投稿人 Lena 메일보내기 이름으로 검색  (138.♡.139.155) 作成日25-02-01 20:29 閲覧数2回 コメント0件

本文


Address :

RO


DeepSeek 모델은 처음 2023년 하반기에 출시된 후에 빠르게 AI 커뮤니티의 많은 관심을 받으면서 유명세를 탄 편이라고 할 수 있는데요. AI 커뮤니티의 관심은 - 어찌보면 당연하게도 - Llama나 Mistral 같은 모델에 집중될 수 밖에 없지만, DeepSeek이라는 스타트업 자체, 이 회사의 연구 방향과 출시하는 모델의 흐름은 한 번 살펴볼 만한 중요한 대상이라고 생각합니다. 다시 deepseek ai china 이야기로 돌아와서, DeepSeek 모델은 그 성능도 우수하지만 ‘가격도 상당히 저렴’한 편인, 꼭 한 번 살펴봐야 할 모델 중의 하나인데요. 을 조합해서 개선함으로써 수학 관련 벤치마크에서의 성능을 상당히 개선했습니다 - 고등학교 수준의 miniF2F 테스트에서 63.5%, 학부 수준의 ProofNet 테스트에서 25.3%의 합격률을 나타내고 있습니다. 또 한 가지 주목할 점은, DeepSeek의 소형 모델이 수많은 대형 언어모델보다 상당히 좋은 성능을 보여준다는 점입니다. 이렇게 한 번 고르게 높은 성능을 보이는 모델로 기반을 만들어놓은 후, 아주 빠르게 새로운 모델, 개선된 버전을 내놓기 시작했습니다. 이렇게 ‘준수한’ 성능을 보여주기는 했지만, 다른 모델들과 마찬가지로 ‘연산의 효율성 (Computational Efficiency)’이라든가’ 확장성 (Scalability)’라는 측면에서는 여전히 문제가 있었죠. 자, 이렇게 창업한지 겨우 반년 남짓한 기간동안 스타트업 DeepSeek가 숨가쁘게 달려온 모델 개발, 출시, 개선의 역사(?)를 흝어봤는데요.


AI-battle-royale-winner-standing-over-th 그 결과, DeepSeek는 정해진 토큰 예산 안에서 고해상도 이미지 (1024X1024)를 효율적으로 처리하면서도 계산의 오버헤드를 낮게 유지할 수 있다는 걸 보여줬습니다 - 바로 DeepSeek가 해결하고자 했던, 계산 효율성 (Computational Efficiency) 문제를 성공적으로 극복했다는 의미죠. DeepSeekMoE 아키텍처는 DeepSeek의 가장 강력한 모델이라고 할 수 있는 DeepSeek V2와 DeepSeek-Coder-V2을 구현하는데 기초가 되는 아키텍처입니다. 역시 중국의 스타트업인 이 DeepSeek의 기술 혁신은 실리콘 밸리에서도 주목을 받고 있습니다. AI 학계와 업계를 선도하는 미국의 그늘에 가려 아주 큰 관심을 받지는 못하고 있는 것으로 보이지만, 분명한 것은 생성형 AI의 혁신에 중국도 강력한 연구와 스타트업 생태계를 바탕으로 그 역할을 계속해서 확대하고 있고, 특히 중국의 연구자, 개발자, ديب سيك 그리고 스타트업들은 ‘나름의’ 어려운 환경에도 불구하고, ‘모방하는 중국’이라는 통념에 도전하고 있다는 겁니다. Moonshot AI 같은 중국의 생성형 AI 유니콘을 이전에 튜링 포스트 코리아에서도 소개한 적이 있는데요. 이 회사의 소개를 보면, ‘Making AGI a Reality’, ‘Unravel the Mystery of AGI with Curiosity’, ‘Answer the Essential Question with Long-termism’과 같은 표현들이 있는데요. 물론 허깅페이스에 올라와 있는 모델의 수가 전체적인 회사의 역량이나 모델의 수준에 대한 직접적인 지표가 될 수는 없겠지만, DeepSeek이라는 회사가 ‘무엇을 해야 하는가에 대한 어느 정도 명확한 그림을 가지고 빠르게 실험을 반복해 가면서 모델을 출시’하는구나 짐작할 수는 있습니다. 이런 두 가지의 기법을 기반으로, DeepSeekMoE는 모델의 효율성을 한층 개선, 특히 대규모의 데이터셋을 처리할 때 다른 MoE 모델보다도 더 좋은 성능을 달성할 수 있습니다.


그 이후 2024년 5월부터는 DeepSeek-V2와 DeepSeek-Coder-V2 모델의 개발, 성공적인 출시가 이어집니다. 불과 두 달 만에, DeepSeek는 뭔가 새롭고 흥미로운 것을 들고 나오게 됩니다: 바로 2024년 1월, 고도화된 MoE (Mixture-of-Experts) 아키텍처를 앞세운 DeepSeekMoE와, 새로운 버전의 코딩 모델인 DeepSeek-Coder-v1.5 등 더욱 발전되었을 뿐 아니라 매우 효율적인 모델을 개발, 공개한 겁니다. 이 소형 모델은 GPT-4의 수학적 추론 능력에 근접하는 성능을 보여줬을 뿐 아니라 또 다른, 우리에게도 널리 알려진 중국의 모델, Qwen-72B보다도 뛰어난 성능을 보여주었습니다. DeepSeek의 오픈소스 모델 DeepSeek-V2, 그리고 DeepSeek-Coder-V2 모델은 독자적인 ‘어텐션 메커니즘’과 ‘MoE 기법’을 개발, 활용해서 LLM의 성능을 효율적으로 향상시킨 결과물로 평가받고 있고, 특히 DeepSeek-Coder-V2는 현재 기준 가장 강력한 오픈소스 코딩 모델 중 하나로 알려져 있습니다. The latest version, DeepSeek-V2, has undergone important optimizations in architecture and performance, with a 42.5% reduction in coaching prices and a 93.3% discount in inference costs. Distributed coaching could change this, making it straightforward for collectives to pool their assets to compete with these giants. The fashions can be found on GitHub and Hugging Face, along with the code and knowledge used for coaching and evaluation. On Hugging Face, anyone can test them out without spending a dime, and builders world wide can entry and enhance the models’ source codes.


umela-inteligence.webp Take a look at the GitHub repository here. Secondly, methods like this are going to be the seeds of future frontier AI techniques doing this work, as a result of the techniques that get built right here to do things like aggregate information gathered by the drones and build the stay maps will serve as input information into future techniques. I think open supply goes to go in an analogous way, the place open source is going to be great at doing fashions within the 7, 15, 70-billion-parameters-vary; and they’re going to be nice models. DeepSeek says its mannequin was developed with current expertise along with open supply software program that can be used and shared by anybody free of charge. This achievement significantly bridges the performance hole between open-supply and closed-source fashions, setting a brand new standard for what open-source models can accomplish in challenging domains. Our analysis outcomes demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on varied benchmarks, significantly within the domains of code, arithmetic, and reasoning.

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기

【コメント一覧】

コメントがありません.

最新物件 目録


【合計:1,899,803件】 3 ページ
最新物件目録
番号 画像 内容 住所
1899773 no image ゲストハウス
10 Healthy Realistic Masturbator Habits 새글
RO
1899772 no image 賃貸
Where Will Gas Safe Certificate Check Be 1 Year From Now? 새글
RW
1899771 no image ゲストハウス
You'll Never Be Able To Figure Out This Small Single Strolle… 새글
MZ
1899770 no image 不動産売買
Looking For Inspiration? Check Out Replacement Upvc Door Pan… 새글
RY
1899769 no image レンタルオフィス
"Ask Me Anything," 10 Responses To Your Questions About Link… 새글
FM
1899768 no image 賃貸
5 Reasons ADHD Treatments Adults Is A Good Thing 새글
AK
1899767 no image ゲストハウス
권선구 하수구막힘 호매실동 금곡동 하수도 뚫음 화장실 변기 역류할때 새글
1899766 no image ゲストハウス
The Three Greatest Moments In Windows.And Doors Near Me Hist… 새글
QH
1899765 no image ゲストハウス
8 Tips To Increase Your Double Glazed Window Handle Game 새글
DG
1899764 no image 賃貸
شركة تنظيف مطابخ بالرياض شركة جلي مطابخ 새글
AD
1899763 no image レンタルオフィス
10 Healthy Replacement Upvc Door Panel Habits 새글
WL
1899762 no image 不動産売買
How To Build Successful Realistic Adult Dolls Tutorials On H… 새글
XZ
1899761 no image ゲストハウス
Fireplace Suites Electric 101: Your Ultimate Guide For Begin… 새글
HC
1899760 no image レンタルオフィス
Guide To Ebay Range Cookers Dual Fuel: The Intermediate Guid… 새글
NZ
1899759 no image 不動産売買
A Beautifully Refreshing Perspective On Deepseek 새글
BJ

접속자집계

오늘
8,200
어제
7,227
최대
21,314
전체
6,458,663
그누보드5
회사소개 개인정보취급방침 서비스이용약관 Copyright © 소유하신 도메인. All rights reserved.
상단으로
모바일 버전으로 보기