'Computer Science/vision & ai' 카테고리의 글 목록

학습 데이터를 점차 늘려가며 트랜스포머 모델을 학습하고 있었다.특정 시점에서 아래와 같은 오류가 났고 혹시 GPU메모리 부족인가 싶어 학습 중 메모리를 확인하는 코드를 추가해보았다. 하지만 메모리는 충분했고 텐서 크기가 너무 커서 버티지 못한 것으로 생각했다.RuntimeError: CUDA error: invalid configuration argumentCUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1Compile with TORCH_USE_CU..

Computer Science/vision & ai 2025. 6. 9. 23:59

워드 임베딩(Word Embedding) 이란

🔷Word EmbeddingWord Embedding 은 단어를 다차원 공간에서 벡터로 표현하는 방법이다. 벡터 간의 거리와 방향은 해당 단어 간의 유사성과 관계를 반영한다.워드 임베딩이 필요한 이유는 자연어를 컴퓨터에서 처리할 수 있도록 하기 위해서이다. 다만 기존에는 단어를 기계가 이해할 있도록 표현하기 위해 원 핫 인코딩 방식을 사용했는데, 각 단어는 특정 차원의 희소 벡터로 표현된다. 이러한 방법은 단어의 개수만큼 차원이 늘어나며 의미 정보가 부족하고 단어 간 관계를 파악하기 힘들었다. 워드 임베딩은 신경망이나 머신러닝으로 훈련되는 밀집된 벡터이다. 밀집된 벡터란 희소 벡터와 비교해 차원이 단어의 개수로 정해지지 않고, 값 또한 실수로 표현된다. 워드 임베딩을 통해서는 단어의 의미가 보존된다. ..

Computer Science/vision & ai 2025. 6. 3. 17:19

Attention 메커니즘과 Transformer 모델의 기본 구조

RNN 모델은 sequential data를 다루는 데 특화된 모델이리고 했다. sequential task 중에는 translation이 있다. 하지만 RNN을 활용하여 translation을 수행할 때에는 결과가 그다지 좋지 못하다. 훈련 데이터에서 벗어난 out of vocabulary words 이거나 train - test domain miss match롱텀의 context 정보의 해석 문제 의미가 불명확한 low resource 단어 등등의 문제가 있기 때문이다. 이러한 문제를 해결하기 위해 나온 모델이 attention 모델이다.📌Attention model기존 오토인코더 기반 RNN 모델의 문제점 기존 RNN 구조인코더 RNN: 입력 단어를 받아 인코딩을 하는 RNN 구조, hidden ..

Computer Science/vision & ai 2025. 6. 3. 03:10

NLP, RNN, LSTM, GRU 의 개념

📌NLP우선 자연어란 우리 사람들이 평소에 쓰는 말을 의미하며, Natural Language Processing 자연어 처리란 이러한 자연어를 컴퓨터가 이해하고 처리하도록 하는 인공지능의 한 분야라고 할 수 있다. 하위 분야로는 구문 분석, 의미 분석, 감정 분석, 텍스트 분류, 질의응답, 기계 번역, 대화, 자연어 생성 등이 있다. 📌RNNRNN(Recurrent Neural Network)은 sequential data 를 위해 디자인된 신경망이다. sequential data 에는 순차적으로 들어오는 데이터로 주식 차트, 비디오, 문장 등 데이터가 있다.자연어와 같은 sequential data는 단어의 순서와 문맥이 중요하기 때문에 과거의 정보를 기억하는 모델이 필요하다. 때문에 RNN에는..

Computer Science/vision & ai 2025. 6. 2. 23:20

베이즈 필터, 칼만 필터, 확장 칼만 필터

📌bayes filter 베이즈 필터는 로봇이 자신의 위치와 방향을 추론할 수 있도록 확률을 계산하는 데 사용되는 알고리즘으로 recursive bayesian estimation 이라고도 한다. 기본적으로 로봇이 최근에 획득한 데이터를 기반으로 좌표계에서 가장 가능성이 높은 위치를 업데이트한다. 실제로 사용되는 칼만필터나 확장 칼만필터의 뼈대가 되는 프레임워크다.기본적으로 시간 t에서의 belief 에서 최근의 관측값(측정값)과 제어명령을 고려해 t+1에서의 belief 로 발전시킨다. - 개념state: 로봇의 위치, 방향 등 추정하고자하는 특징을 말한다.belief: 현재 자신의 상태에 대한 추정치(확률 분포)이다. 예를 들어 초기 시작 위치가 0,0 이라면 해당 위치에 확률 분포가 집중되어 있..

Computer Science/vision & ai 2025. 4. 20. 17:15

Optical Flow | Lucas-Kanade Method

장면 속 물체의 움직임을 측정하는 것이 optical flow를 계산하는 문제이다. 먼저 3차원에서 점이 움직일 때 motion field 는 이미지에 대한 투영이다. 이미지에는 밝기 패턴만 있기에 Motion field를 측정할 수 없다. 영상에서 밝기 패턴의 움직임을 Optical Flow라 한다. Optical Flow Constraint Equeation으로 픽셀의 광학 흐름을 제한한다? 그리고 Optical flow를 추정하기 위한 Lucas-Kanade 방법을 알아보겠다. 영상 속 한 점이 3차원 장면에서 어떤 방향으로 움직이는 것을 생각해보자. 이 움직임은 이미지 평면에 투영되어 이미지 평면에서 움직임을 만들 것이다. 이를 움직이는 지점에 해당하는 `motion field` 라고 한다. 다만..

Computer Science/vision & ai 2025. 4. 8. 23:10

스테레오 비전 stereo vision 개념 및 활용

스테레오 비전두 장의 영상으로 3차원 영상정보를 얻을 수 있음 실제 월드좌표 X를 구하고 싶다면 하나의 영상만으로는 구할 수 없다. 실제 월드좌표 X가 image plan의 점 x를 지나는 선 위에 존재한다는 것만 알 수 있다.별도 추가 카메라를 이용한다면 두 직선을 구할 수 있고 접점을 구할 수 있기때문에 X를 특정할 수 있다. = Triangulation 이것이 바로 Triangulation 의 기본 개념이다. 🔷TriangulationC와 C' 카메라에서 물체를 관찰한다고 생각해보자. 이때 사전에 두 카메라에 대한 카메라 매트릭스 P 를 알고있을 때월드좌표 X에 대응되는 x(카메라C)와 x'(카메라C') 가 있을 것이다.C와 x를 잇는 직선(ray)과 C' 와 x'를 잇는 직선의 교차점을 구하면 ..

Computer Science/vision & ai 2025. 3. 2. 00:27

[컴퓨터 비전] 카메라 모델과 파라미터의 이해

Euclidean coordinate vs Homogeneous coordinate (평행이동 변환 예시)유클리드 좌표 상 2차원의 한 point는 실수 쌍 (x, y)로 표현된다. Homogeneous 좌표는 쉽게 말해 하나의 좌표를 추가해 (x,y,1) 와 같이 표현하는 것이다.homogeneous 좌표에서 scale은 무시되기에(x,y,1)과 (2x,2y,2)는 같은 point를 의미하며 더 나아가 (kx,ky,k) 또한 같은 point를 표현한다. 때문에 역으로 유클리드 좌표를 구하기 위해서는 (x,y,w) 형태의 좌표를 끝 자리 수인 1로 나누어 (x/w,y/w,1) 형태로 만들고 유클리드 좌표인 (x/w,y/w)를 도출할 수 있다.이처럼 2차원 공간에 대한 좌표를 투영(사영) 공간(projec..

Computer Science/vision & ai 2025. 2. 9. 14:39

흔한학생

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30