      • KCI등재

        도로위의 기상요인이 교통사고에 미치는 영향 - 부산지역을 중심으로 -

        이경준,정임국,노윤환,윤상경,조영석,Lee, Kyeongjun,Jung, Imgook,Noh, Yunhwan,Yoon, Sanggyeong,Cho, Youngseuk 한국데이터정보과학회 2015 한국데이터정보과학회지 Vol.26 No.3

        Them traffic accidents have been increased every year due to increasing of vehicles numbers as well as the gravitation of the population. The carelessness of drivers, many road weather factors have a great influence on the traffic accidents. Especially, the number of traffic accident is governed by precipitation, visibility, humidity, cloud amounts and temperature. The purpose of this paper is to analyse the effect of road weather factors on traffic accident. We use the data of traffic accident, AWS weather factors (precipitation, existence of rainfall, temperature, wind speed), time zone and day of the week in 2013. We did statistical analysis using logistic regression analysis and decision tree analysis. These prediction models may be used to predict the traffic accident according to the weather condition. 교통사고는 인구의 증가와 그에 따른 자동차의 증가로 인하여 매년 증가하고 있다. 그러한 교통사고의 원인은 운전자의 부주의뿐만 아니라 도로상의 기상상황에 의해 영향을 받는다. 특히, 강수량, 시계, 습도, 흐림 정도, 기온 등에 의해 많은 교통사고들이 영향을 받는다. 따라서 본 연구는 다양한 기상 요인의 영향 정도에 따른 교통사고 발생 유무의 분석을 목적으로 하였다. 부산 해운대구의 센텀남대로 및 해운대로의 2013년도 교통사고 발생 자료와 지역별 상세 기상 관측 자료인 AWS 기상자료(시간당 강수량, 강수유무, 기온, 풍속), 시간대, 요일을 활용하여 로지스틱 회귀모형 및 의사결정나무모형을 이용하여 분석하였다. 그 결과 기상 요인 중 강수유무와 기온이 교통사고 발생에 영향을 미치는 요인으로 나타났다. 이러한 결과는 도로위의 기상상태에 따른 교통사고의 발생을 예측하는데 유용하게 사용할 수 있을 것이다.

      • KCI등재

        부산지역 교통관련 기사를 이용한 비정형 빅데이터의 정형화와 시각적 해석

        이경준,노윤환,윤상경,조영석,Lee, Kyeongjun,Noh, Yunhwan,Yoon, Sanggyeong,Cho, Youngseuk 한국데이터정보과학회 2014 한국데이터정보과학회지 Vol.25 No.6

        2013년 1월 1일부터 2013년 12월 31일까지의 부산지역지인 국제신문과 부산일보의 기사들 중 제목에 '부산'과 '교통'을 동시에 포함한 2889건의 기사 내용의 관계 또는 관련 있는 데이터에 내재되어 있는 의미 있는 패턴을 찾아내고자한다. 데이터마이닝 (datamining)의 일부인 텍스트마이닝(textmining)의 기법을 이용하여 사회네트워크분석 (SNA; social network analysis)을 실시하였다. 비정형 데이터의 정형화를 위해 빅데이터의 저장, 처리 및 분석을 위해 자바 기반의 오픈소스 프레임워크인 하둡 생태계 (Hadoop ecosystem)의 HDFS와 맵리듀스 (MapReduce)를 Linux (Ubuntu-12.04LTS) 환경에서 이용하였고, 기존의 R패키지에서 제공되는 사회 네트워크 분석보다 효율적인 시각화를 위해 각 노드 및 선에 비율에 따른 가중치를 주어 색상과 굵기로 해석할 수 있도록 새로운 알고리즘을 구현하였다. We analyzed the articles from "Kukje Shinmun" and "Busan Ilbo", which are two local newpapers of Busan Metropolitan City. The articles cover from January 1, 2013 to December 31, 2013. Meaningful pattern inherent in 2889 articles of which the title includes "Busan" and "Traffic" and related data was analyzed. Textmining method, which is a part of datamining, was used for the social network analysis (SNA). HDFS and MapReduce (from Hadoop ecosystem), which is open-source framework based on JAVA, were used with Linux environment (Uubntu-12.04LTS) for the construction of unstructured data and the storage, process and the analysis of big data. We implemented new algorithm that shows better visualization compared with the default one from R package, by providing the color and thickness based on the weight from each node and line connecting the nodes.

      • KCI등재

        텍스트 마이닝을 이용한 KBO 구단별 언론보도 행태 연구 : 2020시즌 KBO구단 NC, 롯데를 중심으로

        이연동(Yeondong Lee),조영석(Youngseuk Cho) 한국자료분석학회 2022 Journal of the Korean Data Analysis Society Vol.24 No.1

        본 연구의 목적은 우리나라 스포츠 언론이 KBO 참가 구단에 대해 어떻게 보도하고 있는지를 살펴보는 것에 있다. 이를 위해 텍스트 마이닝 기법을 활용하여 KBO 참가 구단 10개를 보도하는 기사를 비교 분석을 진행할 예정이었으나 보다 명확한 비교를 위해 10개 구단 중 구단 역사, 인기, 성적 등에서 가장 이질적이면서 대표적인 라이벌 관계인 ‘NC 다이노스’와 ‘롯데 자이언츠’를 다루는 언론 기사만을 분석하기로 하였다. 연구에 사용할 데이터는 네이버 스포츠에서 서비스한 기사만을 수집하였다. 이는 인터넷 언론의 특성상 같은 기사를 여러 언론사가 복제하는 이른바 ‘복제 기사’를 최대한 배제하기 위한 것이다. 또한 수집한 기사를 전처리(preprocessing)하여. KBO와 관련 없는 기사를 최대한 배제하였으며, 혹시나 있을 중복 기사 또한 제거하여 데이터에 기인하는 노이즈(noise)를 최대한 제거하였다. 수집한 데이터는 크게 3가지 방법으로 분석하였다. 첫번째 방법은 시기별 가사량 추이 추적이다. 기사량을 월별로 파악하여 특히 높은 시기의 기사를 워드 클라우드(word cloud)로 해당 기간의 주제를 확인 할 것이다. 두 번째 방법은 감성 분석(sentiment analysis)으로 월별 감정 추이(trend), 두 구단의 긍정, 부정기사 비율차이를 검정하였다. 세 번째 방법은 네트워크 분석(network analysis)으로 단어 동시 출현 빈도 분석(co-occurrence analysis), 연이은 단어 쌍 분석(n-gram analysis)을 실시하여 단어 간 관계를 분석하였다. 종합적으로 결론을 내리자면 ‘NC’의 언론보도 행태는 주로 ‘성적’에 맞추어져 있는 경향이 강했다. 월별, 일별 기사량이 가장 많은 시기가 ‘한국시리즈‘가 열린 11월에 집중되어 있었으며, 단어 간의 관계를 파악하는 ‘단어 동시 출현 빈도 분석(co-occurrence analysis)’과 ‘연이은 단어 쌍 분석(n-gram analysis)’에서 이런 경향이 매우 두드러졌다. ‘롯데’의 언론보도 행태는 ‘선수‘와 ‘타 구단‘의 비중이 높았다. 일별 기사량이 가장 많은 상위 3개 날짜 모두 선수, 타 구단과 관련 있었으며, 이는 ‘단어 동시 출현 빈도 분석(co-occurrence analysis)’ 이러한 경향이 강하게 드러났다. The purpose of this study is to examine how Korean sports media are reporting KBO participating clubs. For the Study, we planned to conduct a comparative analysis of articles using text mining. ‘NC Dinos’ and ‘Lotte Giants’ were decided to analyze articles. Only articles provided by Naver Sports were collected for data to be used in the study. The collected data was analyzed in three main ways. The first way is to track the trend of article volume by period. Articles from a period when the monthly and daily article volume is particularly high will be checked by word cloud. The second way is sentiment analysis, examine including monthly sentiment trends and 2-sample test for equality of proportions in positive and negative. The third way is network analysis, and a total of three relational analyzes are performed: co-occurrence analysis, coefficient analysis, and n-gram analysis. In conclusion, the press reporting trend of ‘NC’ has a strong tendency to focus on ‘ranking’. The period with the highest amount of monthly and daily articles was concentrated in November, when ‘Korea Series’ was held. This trend was very prominent in ‘co-occurrence analysis’, ‘co-occurrence analysis’, ‘coefficient analysis’, and ‘n-gram analysis,’ which identifies the relationship between words. Press reporting trend of ‘Lotte’ had a high proportion of ‘players’ and ‘other clubs’. All of the top 3 dates with the highest daily article volume were related to players and other clubs, and this trend was stronger than ‘NC’ in ‘co-occurrence analysis’ and ‘co-occurrence analysis’.

      • KCI우수등재

        불균형 두 집단의 매칭방법 제안

        정임국(Imgook Jung),노윤환(Yunhwan Noh),조영석(Youngseuk Cho) 한국데이터정보과학회 2018 한국데이터정보과학회지 Vol.29 No.3

        관찰연구 (observational study)에서 사건이 발생한 관측데이터와 사건이 발생하지 않은 관측데이터는 연구 참여 이전에 다른 성향의 데이터일 가능성이 높고, 표본선택 편의 (sample selection bias)의 발생 가능성이 높아지게 된다. 또한 관심 있는 사건이 발생한 관측데이터와 그렇지 않은 관측데이터 수의 불일치가 일어날 가능성이 매우 높다. 이러한 불균형을 해결하는 방법으로 성향점수매칭(propensity score matching: PSM)이 사용되고 있다. 본 논문은 표본선택 편의와 관측데이터 수의 불균형을 해결하기 위해 새로운 방법을 제안하고 그 결과를 비교하고자 한다. In this article, we propose a statistical method to find the equivalent group in observational data by using conversion score. In observational study, treatment group and control group are likely to be different groups before research participation. Thus the difference makes rise of selection bias occurrence possibility. In addition, selection bias makes difference between treatment group and control group. One of the methods to overcome the imbalance is propensity score matching (PSM). For case analysis, we use the 2014 traffic accident data.

      • KCI등재

        텍스트 마이닝을 이용한 “조 바이든(Joe Biden)”을 다루는 미국 언론 보도 연구

        이연동(Yeondong Lee),박현주(Hyeonju Park),조영석(Youngseuk Cho) 한국자료분석학회 2021 Journal of the Korean Data Analysis Society Vol.23 No.2

        본 연구의 목적은 미국 대통령 선거에서 당선된 “조 바이든(Joseph Robinette Biden)”이 현지 언론에서 어떻게 보도되고 있는지를 살펴보는 것에 있다. 분석할 데이터는 친 민주당(진보)성향인 “워싱턴 포스트(Washington Post, WP)”와 다른 곳은 미국 신문사 중에서 비교적 친 공화당(보수적)성향인 “월스트리트 저널(Wall Street Journal, WSJ)”의 언론사의 사이트에서 “Biden”을 검색하여 나오는 기사에서 제목만을 수집하였다. 기사본문은 언론사 정기구독을 해야 열람이 가능하기에 불가피하게 이번 연구에서 제외하였다. 수집한 데이터는 크게 2가지 방법으로 분석하였다. 첫 번째 방법은 잠재적 디리클레 할당(Latent Dirichlet Allocation, LDA)에 기반한 주제 모형(topic model)로 언론사 별로 최적의 주제 개수를 찾아 이를 구성하는 단어를 해석하여 언론에서 어떤 주제를 위주로 “조 바이든”에 대해 다루는지 살펴보았다. 두 번째 방법은 비교 양적 분석(quantitative analysis comparison)으로 정서 점수(polarity score), 가장 긍정적-부정적 문장 찾기(most positive-negative sentence), 다양성(diversity), 분산성(dispersion)기법 등 총 4가지 분석 기법을 사용하였다. 종합적으로 결론을 내리자면 WP는 LDA로 만족할 만한 주제를 추출 하였으나, WSJ는 데이터의 크기가 비교적 작은 탓인지 결과가 명확하지 않아 해석이 어려웠다. 또한 친 민주적인 성향인 WP가 WSJ에 비해 “조 바이든”에 대해 우호적으로 보도하였으며, 이는 정서 점수 분석으로 확인 할 수 있었다. The purpose of this study is to examine how “Joseph Robinette Biden”, who elected for President of the United States. We collected the data to be analyzed from the pro-Democratic(progressive) propensity of the “Washington Post(WP)” and relatively pro-Republican(conservative) propensity the press of the “Wall Street Journal(WSJ)”. We searched for “Biden” on the site and collected only the title from the articles. Unfortunately, the body of the article was inevitably excluded from this study, as it was only possible to read the article by subscribing to the each press. We analyzed the collected data in two ways. The first way was a Topic Model based on Latent Dirichlet Allocation(LDA) which finds the optimal number of topics for each press and interprets the words that constitute them. So we looked to see if it was dealt with. The second way Quantitative Analysis Comparison using a total of 4 techniques, including Polarity Score, finding the most positive-negative sentences, Diversity, and Dispersion analysis. We can concluded comprehensively that in WP case was extracted satisfactory topics with LDA, but WSJ case couldn t be interpreted , the results were not clear. We can guess that this is due to the small size of data or fail to estimate the number of topics. In addition, the pro-democratic press WP reported favorably on Joe Biden compared to WSJ. This result could be assumed the main cause of polarity score analysis result.

      • KCI등재

        텍스트 마이닝을 활용한 감정 비율 단어 그래프

        김장민(Jangmin Kim),이연동(Yeondong Lee),조영석(Youngseuk Cho) 한국자료분석학회 2023 Journal of the Korean Data Analysis Society Vol.25 No.5

        SNS, 논문, 설문조사 주관식 문항 답변과 같은 자연어로 이루어진 비정형 데이터는 텍스트 마이닝을 이용하여 분석 결과를 비교하거나 시각화하는 경우가 일반적이다. 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간을 설정하여 텍스트 데이터를 분석할 경우 전체 구간 중 어떤 구간에 데이터가 가장 많고 적은지, 전체 구간 중 구간별로 많이 사용된 감정 단어가 무엇인지, 특정 구간에 있는 텍스트 데이터가 상대적으로 얼마큼 많이 긍정보다 부정적으로 작성되었는지 판단해야 할 경우가 있다. 본 연구에서는 2019년부터 2022년까지 “지방대”와 관련된 뉴스 기사를 수집하기 위해 네이버에서 “지방대”라고 검색한 뒤 네이버 뉴스라고 표시된 기사만을 수집하여 위의 세 가지 정보를 한 번에 전달할 수 있는 감정 비율 단어 그래프를 제안한다. 감정 비율단어 그래프는 텍스트 데이터를 년, 분기, 월, 요일과 같은 시간을 나타내는 임의의 구간 기준으로 나눈 뒤 감성 사전에 있는 감정 점수를 텍스트 데이터에 부여하여 만들어진 그래프이다. 감정 비율 단어 그래프를 시각화할 때 파이계수도 같이 활용하여 단어를 표시한다면 특정 구간에서 감정 단어와 관련성이 가장 큰 단어가 무엇인지에 대한 정보를 추가로 전달할 수 있다. Unstructured data consisting of natural language such as SNS, papers, and questionnaire subjective question answers are generally compared or visualized using text mining. When analyzing text data by setting a random interval representing a time such as year, quarter, month, and day, it may be necessary to determine which interval has the most data, which sentiment words are used a lot for each interval, and how much text data in a particular interval is written negatively than positive. As a way to solve this problem, this study proposes an sentiment ratio word graph that can deliver the above three information at once. An sentiment ratio word graph is a graph created by dividing text data by a random interval standard representing time such as year, quarter, month, and day of the week and then assigning the sentiment score in the sentiment dictionary to the text data. When visualizing an sentiment ratio word graph, if you also use the pie coefficient to display words, you can further convey information about which words are most relevant to the sentiment word in a particular interval.

      • KCI우수등재

        가슴압박소생술의 운동학적 분석

        이미경(Mi Kyoung Lee),서국은(Kook Eun Seo),공세진(Sejin Kong),조영석(Youngseuk Cho),한기훈(Ki Hoon Han),이경준(Kyeongjun Lee) 한국데이터정보과학회 2019 한국데이터정보과학회지 Vol.30 No.1

        본 연구의 목적은 미국심장협회 (American heart association) 일반인의 2015’ 가슴압박소생술 (hands-only CPR)가이드라인 권장에 따른 운동학적 분석 자료를 제시하여 피교육자의 보다 나은 가슴압박소생술 실기프로그램의 질과 교육의 활용도를 높이는데 그 목적이 있다. 총 남성 48명을 대상으로 실험군 (24명)과 대조군 (24명)을 비교하기 위해 2015’ 가슴압박소생술 가이드라인의 차이값을 측정하여 교육 전 2015’ 가슴압박소생술 가이드라인과의 차이 (압박위치: 흉골2/1 하단, 압박깊이: 5~6cm 압박속도: 100~120bpm)를 공변인으로 하고 교육 후 2015’ 가슴압박소생술 가이드라인과의 차이를 종속변인으로 하여 공변량 분석을 실시하였다. 분석결과 정확도 (%), 상체와 상완의 각도, 상완과 전원의 각도, 전역수평면과 상체의 각도(수평면), 지면반력의 범위, 구간별 시간 등에서 실험군이 대조군보다 통계적으로 유의한 차가 나타났으나, 대퇴와 하퇴의 각도, 전역수평면과 상체의 각도(시상면)는 집단 간의 차이가 통계적으로 유의하지 않은 것으로 나타났다. 따라서 하체 자세의 각도보다는 상체의 팔 (상완, 전완) 각도와 흉부 압박위치 및 압박속도를 기본으로 체중이 부하되는 전역 수평면과 상체의 각도 (시상면)를 강조하여 교육을 해야 하는 것으로 사려 된다. In this study, male48 Red Cross Youth volunteers in P branch of D organization in P city participated in the experiment, as 24 in the experimental group and 24 in the control group, respectively. For comparison of the two groups, based on the score of the accurate CPR Guidelines, the scores of pre-education posture and post-education posture were measured. Covariance analysis was performed using the SPSS V.19.0 statistical package and the significance level was set to α= .05. As a result, 1. The difference between the CPR-trained and the control group in the depth, the number, and the accuracy of the pressure is statistically significant. 2. The difference between the trained on the angle of upper body and upper arm (sagittal plane) and the control group is E1, E2, and E3, which is statistically significant. 3. The difference between the trained on the angle of upper arm and forearm (sagittal plane) and the control group is E1 and E3, which is statistically significant. 4. The difference between the trained on the angle of global horizontal plane and upper body (Horizontal plane) and the control group is E1, E2 and E3, which is statistically significant. Consequently, this research will give help to educate proper positions in CPR training and to provide high-quality CPR training programs.

