1) 토큰화/형태소분석/키워드추출
2) 문서표현/임베딩
3) 단어 연관성 분석
4) 문장 연관성 분석
5) 기타 분석내용 -- 주인공/등장인물의 심리상태/감정상태 분석 (보고서의 내용 분석: 제목과 서론/결론의 연관성 등)
여러 가지 ADHD 관련 논문과 아티클을 분석 대상으로 하여, 자연어 처리 기법을 활용한 정성적 텍스트 분석을 수행하고자 한다.
이를 위해 한국어 형태소 분석기인 KoNLPy 를 활용하여 문서 내 텍스트를 토큰화 및 형태소 분석하고, 핵심 명사 키워드를 추출한다.
TF-IDF 등 Word2Vec 등의 임베딩 기법을 적용하여 각 문서를 벡터로 수치화하고, 단어 간 의미적 유사성 분석을 통해 ADHD 관련 주요 개념 간의 관계를 시각화한다. 이후 문장 간 의미 유사도를 기반으로 문서의 구조적 연결성과 주제 흐름을 파악하고 텍스트에 포함된 문장들을 기반으로 등장 개념(인물, 집단 등)의 심리·감정 상태를 추정할 것이다. 최종적으로는 이러한 분석을 통해 ADHD와 관련된 논의 속에서
정서적 표현, 대인관계 요소, 자기인식 및 사회적 맥락이 어떻게 언어적으로 나타나는지를 파악하고자 한다. 이후 현재 개발 중인 ADHD 서비스의 지피티 튜닝에 해당 연구 결과를 활용할 예정이다.
예상되는 어려움
1. 학술 문헌은 감정을 직접적으로 표현하지 않는다. "기분이 우울했다" , "너무 힘들다" 와 같은 표현 보다 "우울 수준이 높게 나타났다". "불안 증상이 통계적으로 유의미하게 관찰되었다" 같은 객관적이고 중립적인 서술이 많다. (감정 어휘가 간접적이다)
2. 감정 단어가 아닌 임상 용어로 표현된다, 정서조절곤란, 자기비난, 사회적 위축, 기억력 저하 등은 감정과 관련 있지만 감정 단어라기보단 심리학 용어이다.
3. 중립성이 의도되었다. 논문은 감정을 기술하는 게 아니라 분석하는 것이라 감정을 느끼는 대상이 타인이다.또한, 한 인물의 감정이 아닌 ADHD 집단의 감정 분석이다. 그래서 1인칭 감정 표현이 거의 없고 객관화된 서술이 많아 감정 분석에 어려움이 있을 것으로 보인다.
어떻게 하는 게 좋을까?
1. 도메인 맞춤형 감정 단어 사전을 구성한다. '우울', '충동', '불안', '고립', '정서적 어려움' 같은 키워드를 기반으로 Word2Vec 등으로 유사 개념을 확장해서 감정 단어 세트를 구축한다.
2. 간접적 감정 표현을 정서적 지표로 해석한다. "정서조절", "자기비난" 등은 부정 감정으로, "사회적 지지". "자기격려" 등은 긍정 감정으로 분류한다. 이와 같이 심리적 개념을 감정 점수화 할 수 있다.
3. 문장 단위 보단 개념 단위로 분석한다 감정을 "문장 전체"가 아니라, 등장하는 단어와 그 조합에서 추정하고자 한다.
하지만 직접 형태소 분석을 해보니 논문에서는 감정 분석을 하기 어려웠다. 진짜... 왜냐하면 내 의도는 ADHD 당사가자 겪는 어려움을 문헌 기반으로 파악하고 시간/상황 흐름 속에서 감정 변화를 분석하거나 문장/개념 클러스터링을 통해 주요 감정 흐름을 시각화하는 것이었는데
내 코드에서는 아래와 같이 진짜 비슷한 단어만 찾았다...
SeedWord | SimilarWord | Similarity |
우울 | 지지 | 0.9994 |
정서 | 감정 | 0.9995 |
논문의 특성 상 그런 것 같아 구글에서 ADHD 환자의 아티클을 txt 로 변환하여 연구를 진행해보기로 했다.
- 자신이 성인 ADHD가 의심스러운데 병원을 찾아갈 정도인지 고민된다면?
- 성인 ADHD가 아니라고 들었지만 스스로 강하게 의심이 된다면?
- 반복되는 우울과 불안에 시달리고 있는데 근본적인 원인을 찾기 어렵다면?
해당 사항에 집중하여 우울증과 ADHD 연관 관계를 분석해보고자 한다. 원래 목표와 같긴 하다.
성인 ADHD 를 겪는 당사자의 자전적 서사, 특히 일기 및 에세이 형태의 글을 기반으로 감정 키워드와 정서 흐름을 분석하고자 합낟. 감정 상태는 단순히 우울 또는 불안으로 환원될 수 없기 때문에 문제 인식 -> 감정 발생 -> 행동 반응 으로 이어지는 구조 속에서 정교하게 나타날 것으로 예상한다. 텍스트 기반 자연어 처리 기법을 활용해 감정 키워드를 추출하고, 이를 바탕으로 감정의 흐름과 반복 패턴을 시각화함으로써 보다 공감 가능한 해결방안을 탐색하고자 한다.
이를 위해 먼저 글의 형태소 분리를 진행한 후 내러티브를 최대한 분석하여 edges 로 표현하고자 한다. 감정 어휘 사전으로 문장에서 감정 단어를 자동으로 추출하고, 문장 내 시간 순서 / 의미 순서를 파악한다. ("A 해서 B 했다", "~하고 ~ 했다" 구조) 이후 Word2Vec, TextRank, BERT 등으로 관계를 추정한다.
감정 / 행동 단어 사전을 만드는 것에서부터 막혔다... 먼저 "갖다", "빠지다" 등 일반 동사들이 행동으로 분류되었고 "많다", "있다" 등의 형용사는 감정이라기보다 단순 상태 표현에 가까웠다.
일단 해당 단어 사전에서 눈으로 상위 단어 몇 개를 뽑아 edges 로 두고 감정 흐름을 시각화 해보았다. 하지만 이것은 수동... 이기 때문에 이를 자동 단어 사전으로 개선하기 위해 너무 일반적인 단어를 감정/행동 사전에서 제거하고 감정단어 + 행동 단어가 같은 문장에 있을 때만 유효하게 간주하기로 했다. 또 문장 구조 기반 규칙을 추가하여 ~해서, ~했다, ~때문에, ~했다 등의 연결어 기반 구조 인식을 하도록 했다... 해도 잘 안 된다
그러고 이것을 시각화했더니
오엠지...오엠지... 일단 여기까지 해두고... 교수님께 질문한 후 피드백하는 것으로 해야겠다......... 어려워...
'주제 업슴' 카테고리의 다른 글
Jest 로 프론트엔드 테스트 코드 작성하기 (0) | 2025.02.18 |
---|---|
Git 브랜치 전략 (0) | 2024.07.07 |
[모각코] 컴퓨터 네트워크 혼내주기 2 🍕 (0) | 2024.05.29 |
[모각코] 컴퓨터 네트워크 혼내주기 🍕 (2) | 2024.05.22 |
스크롤에 반응하는 목차 하이라이트 만들기 (0) | 2024.03.20 |