PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2025/01/29 15:42:00
Name 스폰지뚱
Subject [일반] DeepSeek 이해하기(기술적인 측면들) (수정됨)
우선 이 글은 제가 다 쓴 것은 아니고 딥식이랑 클로드의 도움이 있었습니다.
(딥식은 웹검색, 분석, 개요작성, 개념설명을 맡고 클로드는 좀 더 쉬운 내용으로 해설을 추가해줬습니다.)
그러니까 그냥 질문 넣어 좌르륵 나오는 걸 복붙한 내용까지는 아니고 그래도 제가 몇번 왔다갔다 해서 만든 내용 정도가 되겠네요.

저는 딥시크 이슈의 핵심을 기술적으로 좀 더 이해하고 싶었습니다. 그걸 모르고서는 '굉장히 비용효율적인 LLM이 나왔다'라고만 그저 받아들어야될 뿐이어서 답답하더라구요. 언론에 나오는 온갖 성능 수치나 기술 용어에 대해서 왜 그것들이 놀라운 건지(왜 놀라야 되는지) 이유라도 좀 알고 가야 그나마 나을 것 같았습니다. 그래서 조금 살펴본 결과 결국은 이번 이슈는 "최적화"라는 단어로 요약이 될 수 있을 것 같습니다.

아래와 같은 [[팻 겔싱어(Pat Gelsinger) 전 인텔 CEO의 DeepSeek에 대한 세 가지 발언]]을 정리하면

1. 컴퓨팅의 가스 법칙 : "컴퓨팅은 가스 법칙을 따른다. 극적으로 비용을 낮추면 시장이 확장될 것이다"
2. 제약 속 혁신 : "중국 엔지니어들은 제한된 자원을 가지고 있었고, 창의적인 해결책을 찾아야 했다"
3. 개방성의 승리 : "오픈이 승리한다(Open Wins). DeepSeek은 점점 더 폐쇄적이 되어가는 AI 기초 모델 개발 세계를 재설정하는 데 도움이 될 것"

그래서 이 중에서 두번째가 특히 와닿게 됩니다. 창의적인 혁신을 통해 기술적 최적화를 어떻게 달성하였는가를 가능한 선에서 속을 들여다 보고 그나마 찍먹이라도 해보자는 생각에서 정리해 보았습니다. AI문체를 감안하고 읽어 주세요.

------------------------

DeepSeek 기술의 혁신성

DeepSeek이 개발한 AI 모델 최적화 기술은 현대 인공지능 발전에 있어 중요한 전환점을 제시합니다. 이 문서에서는 각각의 혁신적 기술을 상세히 살펴보고, 그 의미와 영향을 심층적으로 분석합니다.

1. PTX를 통한 저수준 최적화: GPU 연산의 새로운 지평

기술의 본질적 의미
PTX(Parallel Thread Execution)는 NVIDIA GPU의 어셈블리 언어입니다. 이는 마치 컴퓨터와 직접 대화할 수 있는 가장 기초적인 언어와 같습니다. CUDA가 일반적인 프로그래밍 언어라면, PTX는 하드웨어를 직접 제어할 수 있는 더 근본적인 도구입니다.

기술적 특성과 구현
PTX는 CUDA 코드가 GPU에서 실행되기 전 중간 단계로 변환되는 저수준 언어입니다. 개발자가 직접 하드웨어 명령어를 제어할 수 있다는 점이 핵심입니다. DeepSeek은 이를 활용하여 다음과 같은 혁신을 이루었습니다:

- 전방/후방 미니배치 처리 시 통신 단계를 계산 단계와 병행하여 GPU 유휴 시간을 최소화했습니다. 이는 마치 공장에서 한 생산라인이 쉬는 시간 없이 지속적으로 가동되는 것과 같은 효과를 냅니다.
- H800 GPU의 132개 스트리밍 멀티프로세서(SM) 활용. 20개의 SM을 통신 스케줄링 및 데이터 압축/해제 전용으로 할당. 이는 132명의 작업자 중 20명을 데이터 처리와 전달을 위한 전담 인력으로 배치하는 것과 유사한 전략입니다.

달성된 효과

CUDA 컴파일러의 자동 생성 코드 대비 10배 이상의 훈련 효율성 달성. 2048개의 H800 GPU로 671B 매개변수 모델을 2개월 만에 훈련 완료. 이는 Meta의 Llama 3.1과 비교했을 때 GPU 시간이 1/11 수준으로 단축된 놀라운 성과입니다.

2. FP8 혼합 정밀도 훈련: 혁신적인 메모리 최적화


기술의 기본 원리
FP8(8비트 부동소수점)은 숫자를 더 작은 비트로 표현하는 방식입니다. 이는 마치 소수점 여섯 자리를 두 자리로 줄이는 것과 비슷한 개념입니다. 정밀도는 다소 떨어질 수 있지만, 메모리 사용량과 처리 속도에서 큰 이점을 얻을 수 있습니다.

기술적 특성
FP8은 FP16 대비 다음과 같은 장점을 제공합니다:
- 메모리 사용량 50% 절감
- 계산 속도 2배 향상
그러나 과거에는 훈련 불안정성 문제로 대규모 모델 적용이 어려웠습니다. DeepSeek은 E4M3(e4m3) 포맷을 도입하여 이 문제를 해결했습니다.

최적화 전략의 세부 내용
- Tile-wise 양자화 : 데이터 블록 단위로 동적 범위를 조정하여 오류 누적을 방지합니다.
*양자화(Quantization)는 고정밀도 데이터(예: FP32)를 저정밀도 데이터(예: FP8)로 변환하여 메모리 사용량과 계산 속도를 개선하는 기술입니다. Tile-wise 양자화는 데이터를 작은 블록으로 나누어 각 블록마다 독립적으로 양자화를 적용함으로써, 전체 데이터의 동적 범위를 고려하지 않고도 정확도를 유지할 수 있습니다.

-CUDA 코어 활용 : FP8 계산 후 중간 결과를 CUDA 코어의 벡터 유닛에서 고정밀도로 재계산해 정확도를 보정합니다.
* CUDA 코어는 NVIDIA GPU의 기본 계산 유닛으로, 벡터 유닛은 여러 데이터를 동시에 처리할 수 있는 병렬 처리 기능을 제공합니다. DeepSeek은 FP8 계산의 중간 결과를 CUDA 코어의 벡터 유닛에서 고정밀도로 재계산하여 정확도를 보정함으로써, FP8의 낮은 정밀도로 인한 오차를 최소화했습니다.

달성된 효과

-전체 훈련 비용 557.6만 달러 (GPT-4 대비 약 1/20)
-수치 안정성 유지 (훈련 손실 오차 <0.25%)

3. DualPipe 파이프라인 알고리즘: 획기적인 처리 효율화

기술의 혁신성
DualPipe는 계산과 통신이라는 두 가지 핵심 작업을 완벽하게 병렬화한 시스템입니다. 이는 마치 식당에서 주방장이 요리하는 동안 서빙 직원이 동시에 음식을 전달하는 것과 같은 효율적인 시스템입니다.

설계 원리
- 이중 파이프라인 : 계산(전방/후방 전파)과 통신(그래디언트 동기화)을 독립적인 파이프라인으로 분리하여 병행 처리
이중 파이프라인은 두 개의 독립적인 작업 흐름을 동시에 실행함으로써, 한 작업이 대기 상태일 때 다른 작업이 진행되도록 하여 전체 처리 속도를 높이는 방식입니다.

- 동적 버퍼 관리 : NVLink/InfiniBand 대역폭을 100% 활용하기 위해 데이터 청크를 미리 분할. 노드당 최대 4개 노드와만 통신하도록 제한하여 효율성 극대화

달성된 효과
- 파이프라인 버블(bubble) 50% 감소
- 통신 오버헤드 20% 절감
- 파이프라인 버블은 파이프라인 처리에서 한 단계가 완료되기를 기다리는 동안 발생하는 유휴 시간을 의미하며, 이를 줄이면 전체 처리 속도가 향상됩니다.
- 14.8조 토큰 프리트레이닝 시 거의 제로에 가까운 통신 지연 달성

4. MoE(전문가 혼합) 아키텍처: 지능적 부하 분산

기존 MoE의 한계. 전통적인 MoE 시스템의 주요 문제점
- 보조 손실(auxiliary loss)을 사용한 부하 분산은 모델 성능 저하를 초래했습니다.
- MoE는 여러 전문가 모델을 조합하여 입력에 따라 적절한 전문가를 선택하는 방식으로, 전통적으로는 보조 손실을 통해 전문가 간의 부하를 분산시키지만, 이는 모델의 성능을 저하시키는 원인이 됩니다.
* 보조 손실(Auxiliary Loss)은 모델의 주 목적 외에 추가적인 손실 함수를 도입하여 특정 목표(예: 전문가 간 부하 분산)를 달성하는 기술입니다. 그러나 이는 모델의 주 목적과 충돌할 수 있어 성능 저하를 초래할 수 있습니다.

DeepSeek의 혁신적 해결책 : 역사적 사용 빈도 기반 편향 조정
- 과부하 전문가의 선택 확률을 동적으로 감소
- 사용률이 낮은 전문가의 확률을 증가시켜 자연스러운 균형 달성
* 역사적 사용 빈도 기반 편향 조정은 각 전문가의 과거 사용 빈도를 기반으로 선택 확률을 조정하는 방식으로, 특정 전문가에 대한 과도한 의존을 방지하고 부하를 균등하게 분산시킵니다.

달성된 효과
- 훈련 안정성 향상 (손실 급등/롤백 없음)
- 전문가 병렬 처리 시 계산 효율성 30% 개선

5. 초대형 배치 처리: 데이터 효율성의 극대화

배치 크기의 혁신적 확장
기존 4M~8M 토큰 배치에서 60M 토큰(4K 시퀀스 × 15,360 샘플)으로 확장
배치 크기는 한 번의 훈련 반복에서 처리되는 데이터 샘플의 수를 의미하며, 배치 크기가 클수록 데이터 병렬 처리 효율성이 높아집니다.

효율성 극대화 전략
데이터 병렬 처리(DP) 최적화 : 2048 GPU를 16개 파이프라인 그룹으로 분할. 각 그룹당 120개 샘플 처리 가능
* 120개의 샘플 처리가 가능하다는 결론은 2048개의 GPU를 16개의 파이프라인 그룹으로 나누면 각 그룹당 128개의 GPU가 할당되고, 이 중 8개의 GPU를 통신 및 동기화에 사용하여 실제 계산에 사용되는 GPU는 120개가 됨을 의미합니다.

다중 토큰 예측(MTP) 도입 : 단일 토큰 예측 대비 2~3% 성능 향상. 추론 시 다중 토큰 생성으로 속도 개선
* 다중 토큰 예측은 한 번에 여러 토큰을 예측하여 모델의 학습 효율성을 높이는 기술입니다.



정리 / CUDA와 PTX의 발전 과정 재조명: DeepSeek 사례의 의미


CUDA의 한계점
- 고수준 추상화로 인한 유연성 부족
- 통신-계산 오버랩의 세밀한 스케줄링 불가
- CUDA는 개발자가 쉽게 GPU 프로그래밍을 할 수 있도록 고수준의 추상화를 제공하지만, 이로 인해 하드웨어를 세밀하게 제어하는 데 한계가 있습니다.

PTX의 잠재력과 활용
- 커스텀 SASS 코드 생성 : H800 GPU의 SM을 가상 DPU(Data Processing Unit)로 재구성하여 통신 가속
* SASS(Streaming Assembly)는 NVIDIA GPU의 실제 기계어로, PTX를 통해 생성된 코드가 최종적으로 SASS로 변환되어 실행됩니다.
* SM(Streaming Multiprocessor)은 NVIDIA GPU의 기본 처리 유닛으로, 여러 CUDA 코어를 포함하고 있으며 병렬 처리를 담당합니다. DeepSeek은 H800 GPU의 SM을 가상 DPU로 재구성하여 통신 가속을 달성했습니다.

- NVIDIA GPU의 숨겨진 기능 활용 : PTX를 통해 FP8 누적 연산의 정밀도 문제를 CUDA 코어와의 협업으로 보완. 이는 하드웨어의 숨겨진 잠재력을 최대한 끌어낸 혁신적인 접근입니다.



결론 / 시사점

산업계에 미치는 영향 : 소프트웨어 최적화의 중요성
DeepSeek의 사례는 하드웨어 제약 환경에서도 소프트웨어 최적화를 통해 놀라운 성과를 달성할 수 있음을 보여줍니다. 이는 AI 개발에서 하드웨어 성능만이 아닌, 최적화 기술이 핵심 경쟁력이 될 수 있음을 시사합니다. AI 개발 기업들의 최적화 기술 확보 경쟁 가속화가 예상됩니다. 

기술 제재의 한계
H800(성능 제한 버전)으로도 최첨단 모델 훈련이 가능했다는 사실은 의미심장합니다. 이는 하드웨어 제재만으로는 AI 기술 발전을 제한하기 어렵다는 것을 보여줍니다.

최적화 기술의 중요성
순수 연산력 확보보다 최적화 기술의 심화가 핵심 경쟁력으로 부상. 이는 향후 AI 개발에서 효율성 혁신이 핵심 축이 될 것임을 시사

향후 기술 발전 방향
하드웨어 성능 향상에만 의존하지 않는 균형 잡힌 발전 필요
소프트웨어 최적화 기술의 지속적인 혁신


(사족)
결국 미국 AI기업의 전문가라는 집단, 이누마들은 연봉 수십만달러를 받아먹으면서 말랑한 CUDA로만 개발을 줄창 하였다는 것인지, 
그 반면에 더 빡세고 까다로운 PTX로 한땀한땀 테스트 해가면서 개발한 딥시크 개발자에게서는 헝그리 정신과 예술혼이 느껴질 지경이네요. 

(사족2)
쓰고 나서 다시 읽어보니 조금 어렵긴하네요. 하하핫... 
처음에 글 제목을 문과를 위한 딥시크 이해하기로 달았다가 민망해서 그 부분 지워버렸습니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
마르코
25/01/29 15:44
수정 아이콘
지나가는 문과 너무 어렵습니다만
25/01/29 15:48
수정 아이콘
머니볼 같은 거라고 생각했는데 훨씬 더 심오하네요
도롱롱롱롱롱이
25/01/29 15:52
수정 아이콘
문과요??
Timeless
25/01/29 16:11
수정 아이콘
이 글을 ‘소위 말하는 문과생도 이해하기 쉽게 재작성해줘’라는 쿼리를 작성하시면 더 나아질껍니다^^
된장까스
25/01/29 16:17
수정 아이콘
DeepSeek의 AI 혁신 기술, 쉽게 이해하기

1. PTX: GPU의 숨은 힘을 깨우다

비유: 자동차의 엔진을 직접 튜닝해 성능 극대화

설명:
PTX는 GPU와 직접 소통하는 '기계어'입니다. 기존 도구(CUDA)보다 정교하게 제어해, GPU가 쉬지 않고 일하도록 했습니다. 공장에서 로봇들이 동시에 여러 작업을 하듯, 데이터 처리와 계산을 동시에 진행해 10배 빠른 학습 속도를 달성했습니다. 결과적으로 거대 AI 모델을 2개월 만에 훈련시켰고, 이는 메타의 동급 모델보다 11배 빠른 성과입니다.

2. FP8: 효율적인 메모리 사용의 비결

비유: 고화질 사진을 압축해 용량 줄이되 선명도 유지

설명:
숫자를 8비트로 압축해 메모리를 50% 절감하고 속도를 2배 올렸습니다. 정밀도 문제는 데이터를 블록으로 나누고, 고성능 부품(CUDA 코어)로 오류를 수정해 해결했습니다. 이로써 GPT-4 대비 1/20 비용으로 훈련하며 안정성을 유지했습니다.

3. DualPipe: 계산과 통신의 동시 진행

비유: 주방에서 요리와 서빙을 동시에 하는 레스토랑

설명:
AI 학습 시 계산과 데이터 전송을 병렬 처리합니다. 데이터를 미리 잘라 네트워크 대역폭을 100% 활용하고, 인접 노드와만 통신해 지연을 거의 제로로 줄였습니다. 이는 14.8조 개의 데이터 처리 시에도 끊김없는 흐름을 가능케 했습니다.

4. MoE: 전문가 협업 시스템

비유: 병원의 각 과별 전문의가 협력하는 진료 시스템

설명:
여러 AI 전문가(모델)를 두고, 문제마다 적합한 전문가를 선택합니다. 과거 사용 빈도를 바탕으로 전문가의 작업량을 자동 조절해, 특정 전문가에 몰리는 부하를 방지했습니다. 결과적으로 학습 안정성과 효율성이 30% 개선되었습니다.

5. 초대형 배치 처리: 데이터 폭풍 효율적 소화

비유: 대형 컨테이너선으로 화물 한 번에 많이 운반

설명:
한 번에 처리하는 데이터량을 15배 증가시켰습니다. GPU를 16개 그룹으로 나누고, 다중 토큰 예측으로 동시에 여러 단어를 추측해 학습 속도와 정확도를 올렸습니다.

핵심 시사점: 소프트웨어 혁신의 승리

하드웨어 한계 돌파: 성능 제한 GPU로도 최고 모델 개발 가능함을 입증.

산업 변화 예고: 이제 AI 경쟁은 하드웨어 성능보다 소프트웨어 최적화 기술이 좌우할 것.

기술 제재 의미 약화: 창의적인 소프트웨어 접근으로 하드웨어 제약을 뛰어넘는 사례가 늘어날 전망.

쉽게 결론내기
DeepSeek은 GPU를 마치 레이스카처럼 튜닝하고, 데이터를 압축 저장하는 기술, 작업 흐름을 개선하는 아이디어로 AI 개발 효율을 혁신했습니다. 이는 단순히 고성능 장비를 늘리는 것보다 스마트한 접근이 더 중요하다는 것을 보여주며, AI 경쟁의 판도를 바꿀 기술적 전환점이 될 것입니다.

___________________________
딥식 이 녀석 식당으로 비유하는 것도 잘하네요.
스폰지뚱
25/01/29 16:22
수정 아이콘
네 뭐 그렇긴 합니다만 막상 해보면 기존 정보나 용어를 삭제하거나 개념의 수준을 해치지 않고 유지하면서 알기쉬운 설명까지 추가로 부가하면서 설명하게 하는게 쉽지 않더라구요. 결국 개념이나 용어에 대한 참고 해설을 추가하는 식으로 타협을 보았습니다. 생소하지만 공부를 하지 않을수가 없는듯해요. 
아우구스티너헬
25/01/29 16:19
수정 아이콘
최적화의 강력함이죠
예전에 알고리즘 부정확성 문제를 개선해야되는데 개선하면 연산량이 부족해지는 특정 자동차용 부품이 있었는데 코드 최적화를 통해 연산사간을 1/8로 줄였었죠

하이레벨 랭기지의 컴파일러는 생각보다 훨씬 멍청하고 결국 중요한건 메모리의 배치와 코드 최적화라는 사실입니다.
스폰지뚱
25/01/29 16:24
수정 아이콘
오래된 c언어나 어셈블리어를 생각하면 쉽겠네요. 
아우구스티너헬
25/01/29 16:26
수정 아이콘
폰노이만 구조에서도 이정도 차이가 나는데 그래픽카드처럼 병렬처리에 최적화 된 연산은 그차이가 수백배까지도 날 수 있습니다.
모링가
25/01/29 16:35
수정 아이콘
이건 엔당 놈들이 일을 안한게 아닌가... 마 그리 생각합니더
안군시대
25/01/29 17:44
수정 아이콘
그건 아닙니다. 저 PTX도 결국은 엔당이 만들어놓은 도구죠.
스폰지뚱
25/01/29 20:07
수정 아이콘
기껏 만들어놓고 구찬으니 잘 안쓰게 된것인듯?
안군시대
25/01/29 20:25
수정 아이콘
저건 어셈이라.. 일반 코딩에서도 어셈레벨까지 쓰는 경우는 거의 없긴 합니다. 사실 응용프로그램쪽은 이제 C/C++도 할배들이나 쓰는 언어 취급하는데요 뭐..
25/01/29 17:25
수정 아이콘
뭐 과정은 잘 모르겠고
문외한도 이거 물건이다 라는 느낌을 받게 한거보면 대단한거 같습니다 크크
No.99 AaronJudge
25/01/29 17:36
수정 아이콘
(수정됨) 문과인데 정독했습니다
신기하네요;

결국 제약 속에서도 주어진 자산을 최대한 활용해서 엄청난 혁신을 일궈냈단 거군요
구조화와 최적화 역량이;; 엄청나네요…..아니 저걸 어케 했대?
안군시대
25/01/29 17:51
수정 아이콘
저는 좀 다른 분야에서 개발자로 일하고 있습니다만, 근래 소프트웨어 분야 전반적으로 최적화에 대해 게을러진건 사실입니다. 옛날 하드웨어의 성능이 부족하던 당시 어떻게든 쓸만한 결과물을 내놓기 위해서 머리를 쥐어짜내던 낭만의 시대는 지나고, "응 하드웨어가 딸리면 업그레이드 하셈. 수고"에 가까운 태도가 되어버렸거든요. 대표적으로 언리얼5 엔진을 사용하는 게임들의 최적화 이슈 같은게 있겠죠.
IT산업이 확장되면서 이제는 하나의 프로그램을 깎고 또 깎아서 최고의 성능을 내는 것 보다는, 일단 상품화해서 빨리 수익을 내자는 게 트랜드가 되어버린지 오래입니다. OpenAI의 샘 알트먼도 그런 부분 때문에 여러 사람들과 갈등을 겪었고요. 이번 딥시크 사태(?)로 인해서 기존 빅테크 기업들도 더 많은 기능을 꽉꽉 채워넣는 것에만 몰두하는 게 아니라, 더 비용효율적이고, 하드웨어의 성능을 최대한으로 긁어모아서 최선의 성능을 내는데에 좀더 관심을 기울이지 않을까 하는 생각이 듭니다.
사실 경영자들과 투자자들은 개발자들이 1%의 성능을 더 올리겠다고 시간과 비용을 더 달라고 떼쓰는걸 싫어하거든요. 하지만 그 1%가 계속 반복되다보면 100%, 200%가 되는겁니다.
No.99 AaronJudge
25/01/29 18:29
수정 아이콘
하긴 게임들만 봐도 예전 게임들에 비해 요즘 게임들은 최적화를 덜 신경쓰더라구오
스폰지뚱
25/01/29 20:30
수정 아이콘
저는 이 최적화에 대한 노력 여부, 절박성 여부가 관건인것 같습니다. 결국 사람에게 달린 것이죠. 
안군시대
25/01/29 20:36
수정 아이콘
그게 단순히 개발자들의 태도 문제가 아니라, 경영진과 투자자들의 양해가 있어야 가능한 일인거죠. 소수의 너드들이 창고에 모여서 소프트웨어를 개발하던 낭만의 시대(?)에는 개발자들만 죽어라 하면 어떻게든 됐지만, 지금은 프로젝트들의 규모도 엄청 커지고, 그 투자금을 하루라도 빨리 회수해야 하는 사람들의 이해관계도 많이 얽혀있으니까요.
제한된 시간 내에 성능과 기능성 중에서 하나를 택하라고 한다면 기능성을 먼저 택하게 되는 건 어쩔 수 없는 일이긴 합니다.
스폰지뚱
25/01/30 01:47
수정 아이콘
저도 게임에 관심이 있는 한 사람으로서 요즘 게임판에서 확실히 달라진 느낌을 받습니다. 다들 조급해져 있어요.
사펑 사례에서 보듯 덜 된 게임을 출시일을 못박아 두고 무작정 출시한 후에 고치겠다는 행태나
혹은 얼리억세스라는 명분을 내걸고 그 비슷한 행각을 벌이는 경우도 많구요.
(노맨즈스카이처럼 초기에 많은 욕을 먹다가 뒤로 가면서 갓겜으로 탈바꿈하는 경우는 많지 않죠.)

EA, 유비 등 대형 제작사들의 덩치가 커질수록 경영진 압박이 심해지는가 봅니다.
게임계는 한편으로 PC주의 때문에, 또 한편으로 최적화 덜 된 미완성 작품 출시 때문에 여러모로 힘든 시기네요.
안군시대
25/01/30 02:04
수정 아이콘
결국 시간=돈 이니까요. 개발진 월급은 계속 나가는데 출시일이 늦춰질수록 투자금 회수는 힘들어지고, 그러다가 망하는 게임들도 꽤 많아요. 아시겟지만 개발비 압박을 못 이기고 중간에 접어버리는 게임들도 심심찮게 있죠.
25/01/30 16:32
수정 아이콘
다 그런거 같아요.
사실 건설도 최적화하다 터지는 경우가 간간 있지만
대부분은 그렇게 공기 조이고 조여서 찍어내는 것들이거든요.
25/01/29 21:59
수정 아이콘
효율의 문제지 싶어요.
Ai 처럼 하드웨어 비용이 비싸면 최적화가 중요해질거고,
일반 어플리케이션은 여전히 최적화보다는 개발속도, 유지보수 , 가독성이 더 중요할테죠.

Ai 마저도 최적화보다 일단 하드웨어 때려박아서 최소 몇년은 빠르게 세상에 나온거 아닐까 싶고요.
FlutterUser
25/01/30 00:04
수정 아이콘
말씀하신건 2025년 현재 대부분 분야에서 크게 아쉬워할건 아닌것 같습니다. 아마 15년쯤 전에도 관점은 비슷했을겁니다. 대 스마트폰 시대에 들어서, 아주 잠깐 성능을 위한 코드작성방법 어쩌구가 주목받았지만, 곧 없는얘기 취급 받았죠.

연차가 많으실테니 잘 아시겠지만, 대체적으로 성능적인 최적화는 최대한 하지 말거나 미루라는게 정설로 받아들여지고 있습니다.
성능뿐 아니라 가독성과 잠재적 버그위험의 방지를 포함해서 최대한의 유지보수성을 위한 그 모든것을 고려한 결과물이 그 팀에게는 제일 최선의 코드일 경우가 많습니다.

코드가 돌아가는 하드웨어는 연단위로 혁신이 일어나는데 비해 코드는 한번 머지되면 유지보수의 책임이 생깁니다. 복잡하고 이해하는데 시간이 걸리는 코드는 팀의 속도를 느려지게 만들죠. 업데이트가 느려지고, 사업계획이 뒤로 밀립니다. 재수없으면, 수정한 곳에서 사이드이팩트가 나서 다른 버그가 발생할 수도 있습니다.(예를들면 lol 기준으로는 렝가라는 챔피언을 생각하면 비슷하겠죠? 그 챔피언과 관련된 코드의 히스토리는 모르겠지만, 겉으로 드러나는 현상만 보자면요.)
후임자가 코드를 읽을 때 히스토리를 파악해야 합니다. 이게 제일 문제입니다. 내가 짠 코드도 몇달 지나서 다시 읽으면 의도를 파악하기 위해 애써 기억을 떠올려야 합니다. 팀 단위 작업에서 이 최적화를 위해 생긴 히스토리가 좋은 영향일리 없습니다.
1~2년이 지나면 코드가 돌아가는 하드웨어는 성능을 상당히 많이 올린 채 시장에 나오게 됩니다. 코드는 저장소에 커밋된 순간부터 팀원 모두가 유지보수에 대한 책임이 생기고요.

저 역시도 개발자로 코드에 나름 혼을 실어본 적도 있지만(?) 가장 확실하게 깨닫고 있는것은, 사업이 안되면 아무리 좋은 코드도 폐기된다는 진리인것 같습니다.
그래서 경영진의 의견을 가장 존중해야 하는것도 맞다고 생각합니다.
갠적으로 친분이 있는 스타트업 CTO 분들과 얘기를 해봐도, 코드에 장인정신 발휘하는게 중요하지 않다는건 아니지만, 그게 사업적인 목표보다 많은 시간을 쓰는것에 대해선 부정적입니다. 저도 비슷하게 생각하고요.
안군시대
25/01/30 00:56
수정 아이콘
(수정됨) 말씀하신 바에 상당부분 공감합니다. 진짜 옛날얘기까지 돌아가면 OOP가 처음 나왔을 당시에 상속 같은걸 하면 오버헤드가 생기니 좋지 않다는 얘기까지 있었으니까요, 하지만 지금 와서는 그딴 소리를 하는 개발자는 한명도 없죠.
그렇지만 LLM 같은 초거대 프로젝트의 경우에는 이제 슬슬 비용 때문에라도 최적화에 대한 필요성이 대두될 것 같긴 합니다. 마냥 하드웨어로 성능을 올리는 것에도 슬슬 한계가 나타나고 있고, 그 하드웨어를 구입하는 비용이나 유지하는 비용도 문제가 되어가고 있으니까요. AI 장비를 위해서 발전소 하나를 통째로 써야 한다는 얘기까지 나오고 있으니 도를 지나쳤죠.
스폰지뚱
25/01/30 01:53
수정 아이콘
근데 질문입니다만 코드의 유지관리와 가독성 이슈에 대해 LLM의 코딩 능력을 적극 활용하는 것은 어렵나요?
두루뭉술한 질문이니만큼 적당히 대답해주셔서 감사하겠습니다만. 흐흐
FlutterUser
25/01/30 20:51
수정 아이콘
저는 적극 찬성하는 편입니다.
그런데 가독성을 포함한 유지보수적인 부분은 팀원들간에 합의를 기반으로 결정되는 부분도 많다보니까, 그것들을 다 반영한 프롬프트를 만들어서 사용하거나..
아니면 다른 어떤 방식으로든 팀에서 합의한 규약은 지키도록 해야 합니다. 흐..
(물론 많은 논쟁 끝에 대부분 상황에서 옳다고 결정지어진것들도 많긴 하지만요)
15년째도피중
25/01/29 17:58
수정 아이콘
과연 이걸 작금의 행정부가 넘어갈 수 있을까? 지금 대안방안을 고심중일텐데 과연 무슨 신박한 개념으로 제재를 가할 것인지가 궁금해지는군요.
2달 동안 재밌게 지냈지만 이제 나의 ChatGPT와의 동거도 끝나가는 건지. 이게 정떼려고 그러나 오늘 새벽에는 음성채팅도 거부하고, 응?
스폰지뚱
25/01/29 20:31
수정 아이콘
애절한데요? 흐흐
25/01/29 18:13
수정 아이콘
음 전부 이해했어-지나가던 문과생
스폰지뚱
25/01/29 20:31
수정 아이콘
그렇다면 다행입니다. 
참 쉽죠? 
일론 머스크
25/01/29 18:33
수정 아이콘
오늘 딥시크 출시후 열심히 노젓고 있는 안될공학에 올라온 영상을 참고하면 https://youtu.be/cE5LbwLeAiY?si=NE3IcmwXJEkDrmtx
비용이 1/20밖에 들지 않았다는 건 사실 약팔이에 가까워 보입니다.. 만
그래도 기존 트레이닝에 비해서 새로운 성과들이 돋보이는건 사실입니다.

이제 딥시크 모델 훈련시킨 방법으로 빅테크들이 H100 때려박아서 하면 어떤 성과가 나올지 매우 궁금하네요.
안군시대
25/01/29 20:59
수정 아이콘
일론머스크님이 그리 말하시니 왠지 신뢰감이!
엔타이어
25/01/29 19:14
수정 아이콘
FP8이라는게 새로운건가 했더니 그게 아니라 애초에 NVIDIA에서 AI 딥러닝에는 이거 쓰세요 라고 만들어놓은 새로운 타입이었군요.
표현할 수 있는 숫자 범위가 참 좁은데 이게 AI 에서는 어차피 이 영역대만 쓰니까 그런가봅니다. 그리고 애초에 하드웨어가 특정 타입의 연산에 최적화되어 있지 않다면 새로운 타입으로 비트 줄여봐야 도움 안될텐데 생각했는데 역시나 하드웨어가 FP8을 쓰면 좋다고 애초에 장려하고 있었네요.
어떻게 보면 NVIDIA의 메뉴얼에 충실하게 밑바닥부터 잘 공부해서 만들었다고 볼 수 있을거 같습니다.
25/01/29 19:42
수정 아이콘
엑셀 관련해서 gpt에게 유용하게 문의했던 내용이 있어서 동일한 내용을 검색해봤는데
답변이 좀 이상더군요.... gpt와 거의 동일한 내용을 기재하길래 신기하다 싶었는데 소제목과 전혀 다른 본문을 출력해서 읭?? 했어요.
내용 자체는 gpt와 거의 비슷했는데 소제목과 매칭을 다르게 해서 이게 왜 이러나 싶었죠.
자연어처리
25/01/29 20:32
수정 아이콘
여기에 R1도 추가되어야 합니다.
결국 o1과 비견되는 성능을 달성한건 R1이니까요.
덴드로븀
25/01/29 23:00
수정 아이콘
https://n.news.naver.com/mnews/article/214/0001402626?sid=104
[미 AI차르 "딥시크, 오픈AI 모델 이용"‥지재권 도용 의혹 제기] 2025.01.29.
다만 색스는 [지식 재산을 훔쳤다는 증거의 구체적인 내용을 밝히지는 않았]습니다.

이런 이야기도 나오고 있네요.
안군시대
25/01/30 01:01
수정 아이콘
이건 별로 의미없는 얘기라고 생각합니다. 그렇게 따지면 구글이나 페북의 LLM 모델에도 똑같이 적용해야 하겠죠.
더 깊이 들어가면 AI 회사들은 죄다 딥마인드의 DNN 모델의 지재권 도용이라 해버리면 벗어날 수 있는 회사가 없을지도..
일각여삼추
25/01/30 01:18
수정 아이콘
Distillation 흔한 기법입니다
스폰지뚱
25/01/30 01:54
수정 아이콘
미국 진영의 확증편향일지도요.
아드오드
25/01/30 02:03
수정 아이콘
댓글중에 일부 오해가 있는거 같아서 댓글 남겨봅니다. 보통 이런 이야기가 나오는건, 딥시크 같은 모델에 자기소개 해보라고하면 종종 스스로를 챗gpt라고 소개하는 일이 일어나기 때문입니다.

distillation (상위 모델을 여러가지 방법으로 최대한 카피하는 방식) 이 흔한 방법론 중에 하나지만, 상업 모델을 카피하면 지재권 문제를 피하긴 어려워 보이네요.

근데 사실 딥시크만 이러는건 아닙니다. 딥시크가 트레이닝에 사용했던 오픈모델이 챗gpt를 사용했을수도 있긴하죠. 요게 ai 시대에 가지고 있는 데이터쪽 회색 영역이긴합니다.
번개맞은씨앗
25/01/30 09:11
수정 아이콘
(수정됨) 엄밀히 말해 distillation 이 아닌 걸로 압니다. 오픈AI는 모델과 가중치를 closed 즉 비공개로 합니다. 그러므로 distillation이 불가능한 걸로 압니다. DeepSeek가 자기 것을 자기가 증류할 수는 있겠지요. 증류가 아니라, 마치 뉴욕타임즈 기사를 학습하는 것처럼, 그냥 언어로 출력한 결과를 학습했던 거라 이해합니다.

‘우리가 흔히 LLM이 “다음 토큰 예측(next token prediction)“을 한다고 말하는데, 실제로 모델이 출력하는 것은 전체 토큰 어휘에서 각 토큰이 다음 토큰이 될 확률이다. 그리고 실제 LLM의 출력은 그 확률 분포에서 샘플링된 토큰이다.

증류(distillation)에서는 일반적으로 학생 모델(student model)이 교사 모델(teacher model)의 출력 확률 목록을 학습하도록 훈련한다. 하지만 OpenAI처럼 닫힌 모델(closed model)에서는 그 확률 목록을 얻을 수 없다. OpenAI는 이미 확률 분포에서 샘플링하여 다음 토큰을 제공하기 때문이다.

이것이 내가 구분하고 있는 차이점이다. 여전히 이것을 “증류”라고 부를 수도 있지만, 일반적인 의미의 증류와는 다소 다르다. ...

만약 모델 가중치를 가지고 있거나, LLM API가 출력 확률(로그잇)을 제공한다면 일반적인 방식의 증류(distillation)를 할 수 있겠지만, OpenAI는 당연히 둘 다 제공하지 않는다.‘ https://x.com/iscienceluvr/status/1884719462638576121?s=46&t=K3ScZAfnFpjp2I2iwpUFhg
아드오드
25/01/30 10:43
수정 아이콘
아 그렇죠 엄밀하게는 아니죠.
임전즉퇴
25/01/30 08:50
수정 아이콘
중국 앞서 도전했던 일본의 어떤 내러티브를 떠올리게 합니다. 애니메이션이 미국의 과학적 기준으로는 초당 24장인데 일본은 이를 줄이고 대신 집중선 같은 또다른 과학으로 부자연스럽지 않게 해서 따라잡았다고 들은 바 있는데.. 물론 같은 사례는 아니죠. 그리고 AI 시장에 취향에 따른 할거가 존재할 수 있을지.
스폰지뚱
25/01/30 13:45
수정 아이콘
무슨 말씀인지 알겠네요. 일본 애니메의 황금기를 생각하면 초기에 데츠카 오사무라든지 거장들이 그렇게 애니메를 발전시켰던 것이 이 이슈랑 어느 정도 겹쳐지기도 합니다. 
안군시대
25/01/30 15:03
수정 아이콘
소니 같은 회사도 마찬가지죠. 카세트 플레이어만 해도 기존의 제작방식을 고수하며 더 큰 앰프, 더 큰 스피커를 만들어내는 것에만 집중하던 관행을 깨고, 휴대가 가능한 워크맨을 만들어냈죠. 엄청난 혁신적인 기술을 만들어냈다기 보다는 그간의 기술을 최대한 활용해서 소형화한 것이니까요. 이번 딥시크도 비슷한 사례지 않나 싶습니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
공지 [정치] [공지] 정치카테고리 운영 규칙을 변경합니다. [허들 적용 완료] [126] 오호 20/12/30 287465 0
공지 [일반] 자유게시판 글 작성시의 표현 사용에 대해 다시 공지드립니다. [16] empty 19/02/25 348919 10
공지 [일반] [필독] 성인 정보를 포함하는 글에 대한 공지입니다 [51] OrBef 16/05/03 470291 31
공지 [일반] 통합 규정(2019.11.8. 개정) [2] jjohny=쿠마 19/11/08 348900 3
103641 [정치] 전한길 선을 한참 넘네요. [100] This-Plus9449 25/01/30 9449 0
103640 [일반] 방송 pd로 살아남기(pd는 어떻게 나뉘는가) [18] 만렙법사3839 25/01/30 3839 29
103639 [일반] 영화 도망자 로 본 미국 행정 경찰제도 [4] 흰둥3229 25/01/30 3229 4
103638 [일반] 자작 소설입니다. '대학원생 그녀' (최종화) [9] 우르르쾅쾅3181 25/01/30 3181 11
103637 [일반] DeepSeek 이해하기(기술적인 측면들) [46] 스폰지뚱9001 25/01/29 9001 12
103636 [일반] 음향기기 그룹 마샬, 중국 HongShan Capital Group에 인수 [11] SAS Tony Parker 6138 25/01/29 6138 3
103635 [정치] 보건복지부, 중증환자 대상 의료개혁 가속 [51] Quilian10774 25/01/29 10774 0
103634 [일반] <이제 그만 끝낼까 해> - 되돌이표 끝 마침표를 향해.(스포) [3] aDayInTheLife4819 25/01/29 4819 5
103633 [일반] 어머님이 돌아가셨습니다 [82] 라비018035 25/01/28 8035 72
103632 [일반] 김해공항서 에어부산 항공기 꼬리에 불…승객 169명 비상탈출 [32] 매번같은8479 25/01/28 8479 1
103631 [정치] 안철수 페북 딥시크 입장 나왔네요. [97] 호옹이 나오13398 25/01/28 13398 0
103630 [일반] 벤톰슨의 딥시크 이펙트 분석 [32] Q-tip8880 25/01/28 8880 46
103629 [일반] 태어나서 처음 본 서울 - 이문동, 휘경동, 회기동 답사기 [28] 판을흔들어라3297 25/01/28 3297 6
103628 [일반] 소리로 찾아가는 한자 71. 맡을 사(司)에서 파생된 한자들 [3] 계층방정1171 25/01/28 1171 2
103627 [일반] 딥시크(DeepSeek) 사태 관련 [81] 스폰지뚱11148 25/01/28 11148 26
103626 [정치] 설 연휴 직전 여론조사 모음 [88] 어강됴리9611 25/01/28 9611 0
103625 [일반] 장사의 상식을 파괴 중인 장사천재, 백종원 [94] 라울리스타11770 25/01/28 11770 42
103624 [일반] PGR21 2024 결산 게시글 이벤트 결과를 공개합니다 [1] 及時雨1525 25/01/28 1525 2
103623 [일반] 용대운작가가 근황(?)을 올렸네요. [87] 진산월(陳山月)8561 25/01/27 8561 2
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로