728x90
반응형
SMALL

2. 인공지능 논문리뷰 6

[논문리뷰] Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

Abstract대형 언어 모델(LLM)은 다양한 작업과 상황에서 유용하게 활용되고 있지만, 이를 신뢰할 수 있는 방식으로 평가하는 방법을 개발하는 것은 여전히 어려운 과제이다. 현대의 평가 방법들은 종종 LLM을 이용하여 다른 LLM이 생성한 응답을 평가하는 방식에 의존한다. 그러나, LLM을 평가자로 활용하는 방식의 효과성을 평가하기 위한 메타 평가(meta-evaluation)는 기존 벤치마크의 한정된 범위에 의존하거나, 광범위한 인간 주석이 필요하다는 문제를 안고 있다. 이러한 한계를 극복하기 위해, 우리는 다양한 작업과 사용자 정의된 새로운 시나리오에서도 LLM의 평가 성능을 효과적이고 신뢰할 수 있으며 효율적으로 평가할 수 있는 확장 가능한 메타 평가 방법이 시급히 필요함을 강조한다.이를 해결하..

[논문추천] Can Large Language Models be Trusted for Evaluation?Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

안녕하세요,IITP 토론토대학교 인공지능 파견 간 기업프로젝트도 함께 진행하고 있는데요. 오늘은 진행하고 있는 LG Toronto Agent AI Project에서 담당자분이 추천해주신 논문 공유드립니다.https://arxiv.org/abs/2401.16788 Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent DebateDespite the utility of Large Language Models (LLMs) across a wide range of tasks and scenarios, developing a method for reliably evalua..

[논문추천] Agent-as-a-Judge: Evaluate Agents with Agents

안녕하세요, 오늘은 IITP 토론토대학교 인공지능 파견 간 기업프로젝트도 함께 진행하고 있는데요. 저는 LG Toronto Agent AI Project를 맡게 되었습니다. Coursework 기간에는 2주에 한번씩 미팅을 진행하고 있습니다. 미팅 간 담당자분께서 추천해주셨던 Agent 논문 링크 공유드립니다.   [Meta의 Agent-as-a-Judge: Evaluate Agents with Agents]https://arxiv.org/abs/2410.10934 Agent-as-a-Judge: Evaluate Agents with AgentsContemporary evaluation techniques are inadequate for agentic systems. These approaches ei..

QLoRA(Quantized Low-Rank Adapter) 논문 간단리뷰

안녕하세요,  오늘은 QLoRA (Quantized Low-Rank Adapter) 에 대해 간단하게 리뷰해보도록 하겠습니다.QLoRA는 파라미터 효율적 미세 조정(PEFT, Parameter-Efficient Fine-Tuning)을 위한 방법 중 하나로, 대형 언어 모델(LLM)을 저비용으로, 더 적은 자원으로 미세 조정하기 위해 설계되었습니다. 특히 FP4(4-bit 부동소수점) 양자화와 낮은 Rank 어댑터(Low-Rank Adapter)를 결합하여 효율성과 성능을 극대화합니다. 그렇다면, LoRA와 QLoRA의 차이가 무엇일까요? LoRA는 기존 모델의 일부 파라미터만 저랭크 형태로 미세 조정하여 메모리와 연산 비용을 줄이는 방법이고,QLoRA는 LoRA에 4비트 양자화를 추가하여 더 적은 메모..

논문리뷰 1. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (CVPR 2023)

안녕하세요,  오늘은 Computer Vision 논문리뷰를 해보려고 합니다. 비전공자이다보니까 수식이 어떻게 활용되었는지 논문을 읽을때마다 어렵기도 하고, 어려운 부분인 것 같아요.제가 다룰 논문 리뷰들에서는 어떻게 수식이 적용되었는지 보여드릴 예정이니 비전공이신분들도 두려워마시고 차근차근 읽어서 가져가시기 바랍니다. Multimodal에 관한 연구를 하시는 분들에게 조금이나마 도움이 되시기 바랍니다.  DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation ( Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M., & Aberman, K. CVPR 2023..

ReACT 논문리뷰

안녕하세요, 오늘은 대학원 입학 전에 참여하였던 Deep daiv에서 다루었던 논문인 ReACT에 대해 리뷰해보도록 하겠습니다. REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS   ReACT언어모델은 추론과 실행에서 좋아지고 있지만, 두가지 방향은 여전히 분리되어 있다.ReACT는 두가지 기본 기능을 결합하면 어떻게 되는지를 보여준다. AbstractLLM은 언어를 이해하고 대화형 의사결정 작업 전반에 걸쳐 좋은 기능을 보여주었지만 추론 및 실행은 주로 별도의 주제로 연구되었다. 본 문서에서는 추론 추적과 작업별 작업을 interleaved 방식으로 생성하기 위해 LLM을 사용하여 둘 사이의 큰 시너지 효과를 허용하는 방법을 살펴본다.Interle..

728x90
반응형
LIST