문과생CS정복기

이 화면은 Hugging Face의 Spaces 페이지로, 다양한 AI 애플리케이션을 커뮤니티가 개발하여 공유하는 플랫폼입니다. Spaces는 주로 Gradio와 Streamlit 같은 도구를 통해 인터랙티브한 웹 애플리케이션을 손쉽게 만들고 배포할 수 있도록 지원합니다. 예를 들어, 텍스트 생성, 이미지 생성, 오디오 변환 등 다양한 태스크를 수행하는 AI 애플리케이션들이 여기에서 제공됩니다.주요 기능Spaces 검색 및 탐색:상단에 Search Spaces 검색창을 이용해 원하는 키워드를 입력하여 특정 애플리케이션을 찾을 수 있습니다.태스크별, 라이브러리별, 또는 기타 조건으로 Spaces를 필터링하여 원하는 주제나 기능의 애플리케이션을 찾을 수 있습니다.Spaces of the Week:주간 인기 ..

DeepLearning 2024. 10. 30. 21:30

Hugging Face - Datasets 알아보자

1. Main이 화면의 왼쪽에는 Hugging Face 데이터셋을 필터링할 수 있는 다양한 옵션이 제공됩니다. 각 필터 옵션은 다음과 같습니다:1. Modalities (형식)3D, Audio, Geospatial, Image, Tabular, Text, Time-series, Video와 같은 옵션이 있으며, 데이터의 종류에 따라 필터링할 수 있습니다.예를 들어, Text는 텍스트 데이터를, Audio는 음성 데이터를, Image는 이미지 데이터를 포함하는 데이터셋을 검색할 때 사용됩니다.2. Size (rows)데이터셋의 크기를 기준으로 필터링할 수 있는 슬라이더입니다.부터 >1T까지 데이터셋의 행(row) 수를 조절하여, 원하는 크기의 데이터셋만 표시할 수 있습니다. 예를 들어, 매우 큰 데이터셋이..

DeepLearning 2024. 10. 30. 21:16

Hugging Face - Models 알아보자

1. Tasks왼쪽 메뉴Tasks (태스크): 모델이 수행할 수 있는 작업 종류를 나열합니다. 여기에는 Multimodal (예: Image-Text-to-Text, Video-Text-to-Text), Computer Vision (예: Image Classification, Object Detection, Text-to-Image), Natural Language Processing (NLP) (예: Text Classification, Question Answering, Summarization) 등의 카테고리가 포함되어 있습니다. 사용자는 수행하고자 하는 태스크에 따라 원하는 모델을 쉽게 찾을 수 있습니다.Filter Tasks by name: 특정 태스크 이름을 입력하여 관련된 모델을 필터링할 ..

DeepLearning 2024. 10. 30. 20:42

Hugging Face 구성요소 및 활용방법

Hugging Face는 다양한 AI 도구와 라이브러리를 제공하는 플랫폼으로, 자연어 처리(NLP), 컴퓨터 비전, 음성 인식 등 여러 분야의 딥러닝 모델과 데이터셋을 쉽게 사용할 수 있게 설계되었습니다. 이 구조를 잘 이해하면 개발자로서 필요한 도구와 리소스를 빠르게 활용할 수 있습니다. 주요 구성 요소와 활용 방법을 정리해 보겠습니다.1. Transformers 라이브러리Hugging Face의 핵심 라이브러리로, 사전 학습된 Transformer 기반 모델(BERT, GPT, T5 등)을 쉽게 불러와 다양한 NLP 태스크(예: 텍스트 분류, 번역, 요약, 감정 분석)를 수행할 수 있습니다. 주요 함수:AutoModel 및 AutoTokenizer: 사전 학습된 모델과 토크나이저를 자동으로 불러옵니다..

DeepLearning 2024. 10. 30. 20:02

Safetensors

Safetensors는 모델의 전체 구조를 포함하는 것이 아니라, 모델의 가중치와 같은 텐서(tensor)만을 저장하고 로드하는 데 집중한 파일 형식입니다. 이 방식은 모델을 불러올 때 **구조적인 정보(예: 레이어, 활성화 함수 설정 등)**가 아닌, 단순히 가중치와 편향값 같은 수치 데이터만 불러오기 때문에 매우 효율적입니다.기존의 pickle 방식이나 일반 .pt 파일 형식에서는 모델의 모든 정보(구조와 가중치)를 포함하는 데 반해, Safetensors는 보안과 속도 최적화에 초점을 맞추어 텐서 데이터만 안전하게 저장하고 불러올 수 있도록 설계되었습니다. 이렇게 하면 텐서 데이터를 필요에 따라 여러 모델에 재사용하거나 맞춤형 모델 구조에 텐서 데이터만 로드할 수 있게 됩니다Hugging Face..

DeepLearning 2024. 10. 30. 19:59

[패스트캠퍼스 Upstage AI Lab 3기 부트캠프] 과정 종료 회고

24년 4월부터 11월까지 총 7개월 간의 긴 대장정 부트캠프가 끝이 났습니다.업스테이지 AI랩 3기는 박기준 매니저 님이 함께 해주셨고 파이썬부터 시작해서 ML, DL, LLM-RAG까지 배웠습니다.많은 강사님들과 멘토님들의 체계적인 지도 하에 어디가서 chatGPT가 무엇이고 트랜스포머가 무엇인지 설명할 수 있는 수준까지 성장했습니다.아침 10시부터 오후 7시까지 줌과 온라인 강의를 통해 굉장히 강도 높은 수준의 교육을 진행했기 때문에,프로그래밍 개발자이신 분들에게도 근면성실함은 물론이고 추가적인 학습과 노력을 요구하는 과정이었습니다.하지만 아예 프로그래밍 경험이 없는 비전공자 분들도 완주하시는 분들이 계신 걸로 보아서 얼마나 성장하고 얼마나 본인 몫을 가져갈지는 본인 하기 나름이라고 생각합니다. 4..

Upstage AI 3기/패스트러너_기자단 2024. 10. 27. 19:08

[Scientific Knowledge Question Answering | 과학 지식 질의 응답 시스템 구축] IR 프로젝트 개인회고

1. 프로젝트 개요A. 개요 : https://stages.ai/en/competitions/322대화 히스토리를 기반으로 질문에 가장 알맞은 문서를 맞추는 것이 이번 대회 목표이다. 알맞은 문서는 1개 내지 2개일 수 있다고 강사님께서 언급하셨다. topk를 1개를 제출하든 5개를 제출하든 상관은 없지만 MAP점수 매길 때 topk의 순위가 중요하다.B. 환경: Upstage에서 제공하는 remote 서버연결GPUCPUMemoryRTX 3090 / 24 GB10 thread60G 2. 프로젝트 팀 구성 및 역할 2-1. 매일 11시 어제 한 것, 유효한 부분, 내일 진행할 부분에 대해 공유, 모델학습실험기록지를 엑셀로 공유2-2. 역할분담진행속도가 빠른 사람이 실험결과 공유해주고, 후발주자가 성능 올릴..

Upstage AI 3기/프로젝트_개인회고 2024. 10. 27. 17:13

임베딩 모델이 클 수록 좋은 것일까?

임베딩이 더 큰 OpenAI의 embedding 모델을 사용하는 것이 SRoBERTa보다 더 효과적일지 여부는 여러 요인에 따라 다릅니다. 두 모델은 서로 다른 특성과 강점을 가지고 있으므로, 사용하는 상황과 목표에 따라 성능이 달라질 수 있습니다.고려해야 할 요인들임베딩 크기OpenAI의 최신 embedding 모델들은 매우 큰 크기의 임베딩을 제공합니다. 임베딩 크기가 클수록 더 풍부한 정보를 담을 수 있지만, 항상 성능이 더 좋은 것은 아닙니다. 임베딩 크기가 큰 모델은 일반적으로 더 많은 계산 자원을 요구하며, 실시간 응답이 중요한 작업에서는 비효율적일 수 있습니다.SRoBERTa는 더 작은 크기의 임베딩을 제공하면서도, 문장 간의 의미적 유사성을 잘 학습하도록 최적화된 모델입니다. 임베딩 크기가..

DeepLearning/NLP 2024. 10. 23. 13:14

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

티스토리툴바