      • 데이터 마이닝에서 기존의 연관규칙을 갱신하는 효율적인 앨고리듬

        김동필 한양대학교 대학원 1997 국내석사

        RANK : 248703

        본 연구에서는 데이터베이스에 트랜잭션이 추가됨에 따라 새로운 연관규칙이 발견되거나 기존의 연관규칙이 소멸될 수 있기 때문에 대용량 데이터베이스에서 연관규칙을 갱신하는 효율적 앨고리듬을 제시한다. 기존의 갱신 앨고리듬은 기존의 데이터베이스에서 발견된 연관규칙에 대한 정보를 재사용함으로써 전체 데이터베이스의 연관규칙을 효율적으로 갱신할 수 있게 한다. 또한 연관규칙을 갱신하는 각 반복수행에서 다음 반복수행에서의 데이터베이스의 검색을 줄이기 위해 데이터베이스를 전지한다. 본 연구에서는 기존의 갱신 앨고리듬과 같이 기존의 데이터베이스에서 발견된 연관규칙에 대한 정보를 재사용함으로써 전체 데이터베이스의 연관규칙을 효율적으로 갱신할 수 있게 한다. 본 연구에서는 추가되는 데이터베이스로 인하여 전체 데이터베이스에서 새로운 빈발 항목집합의 출현은 어렵다는 점을 이용하여 추가되는 데이터베이스에서의 후보 항목집합을 한번에 생성하고, 최소지지도를 만족하는 후보 항목집합에 대해 기존의 데이터베이스를 검색하여 전체 데이터베이스에서 갱신된 연관규칙을 찾는다. 이것이 기존의 갱신 앨고리듬과 다른 점이다. 또한 각 반복수행에서 다음 반복수행에서의 데이터베이스의 검색을 줄이기 위한 데이터베이스 전지작업을 하지 않는다. 이렇게 함으로써 제안하는 갱신 앨고리듬은 빠르고 효율적으로 연관규칙을 갱신한다. This study suggests an efficient algorithm for updating discovered association rules in large database, because a database may allow frequent or occasional updates, and such updates may not only invalidate some existing strong association rules, but also turn some weak rules into strong ones. FUP and DMI update efficiently strong association rules in the whole updated database reusing the information of the old large itemsets. Moreover, these algorithms use a pruning technique for reducing the database size during the update process. This study updates strong association rules efficiently in the whole updated database reusing the information of the old large itemsets. An updating algorithm that is suggested in this study generates the whole candidate itemsets at once in an incremental database in view of the fact that it is difficult to find the new set of large itemsets in the whole updated database after an incremental database is added to the original database. This method of generating candidate itemsets is different from that of FUP and DMI. After generating the whole candidate itemsets, if each itemset in the whole candidate itemsets is large at an incremental database, the original database is scanned and the support of each itemset in the whole candidate itemsets is updated. So, the whole large itemsets in the whole updated database is found out. An updating algorithm that is suggested in this study does not use a pruning technique for reducing the database size during the update process. As a result, an updating algorithm that is suggested updates fast and efficiently discovered large itemsets.

      • 연관규칙 분석을 통한 공기지연 유발요인의 주요 특징 분석 연구 : -공기지연 분쟁 판례를 중심으로-

        장세림 세종대학교 대학원 2023 국내석사

        RANK : 248703

        건설공사에는 다양한 리스크가 내재되어 있으며, 분쟁을 발생시킬 수 있는 소지를 지니고 있다. 특히 공기지연은 많은 분쟁사례들과 관련이 있으며, 발생하는 원인과 형태가 복잡하고 다양하다. 공기지연이 발생하면 발주자와 시공사 모두 부정적인 영향을 받기 때문에 공기지연을 선제적으로 대응하는 것은 필수적이다. 공기지연 원인과 관련하여 다양한 연구들이 수행되어 왔지만, 유발요인간의 관계 분석은 미흡하고, 여러 분석기법에 따른 결과의 비교를 바탕으로 문제해결 방안을 제시하는 연구는 미흡한 것으로 나타났다. 본 연구의 목적은 요인간의 연관성을 도출하는데 활발히 활용되고 있는 연관규칙 분석을 활용하여 공기지연 유발요인들의 연관규칙을 도출하고, 빈도분석과 비교하여 주요 특징 및 시사점을 제시하는데 있다. 본 연구에서는 국내 최다 판례 데이터를 제공하는 빅케이스에 제시된 공기지연 분쟁사례 데이터를 바탕으로, SPSS 프로그램을 활용하여 연관규칙 분석을 통해 연관성 높은 규칙들을 도출하였고, 특징과 시사점을 제시하였다. 분석결과 첫째, 전체 연관규칙 257개 중 연관성 높은 규칙 13개가 도출되었다. 둘째, 공기지연 유발요인의 연관성을 파악할 수 있기에, 중점적으로 관리할 공기지연 유발요인을 도출할 수 있었다. 셋째, 빈도분석 결과와의 비교를 통해 빈도수가 많다고 많은 연관규칙이 도출되는 것은 아닌 것으로 분석되었다. 넷째, 어떤 선행 유발요인이 추후 유발요인과 관계가 있는지를 알 수 있기에 요인간의 우선순위를 세우고 대비할 수 있음을 확인하였다. 마지막으로 분석을 통해 나타난 특징에 따라 발주자와 시공사 관점의 시사점을 제시할 수 있었다. 이는 본 연구가 공기지연 발생가능성을 줄이고, 건설과 관련된 다양한 분쟁의 연관관계 분석을 위해 활용될 수 있는 확장성을 지니고 있다는 것을 의미한다.

      • 영역 연관규칙을 위한 데이타 탐사 기법

        조일래 전남대학교 대학원 1997 국내박사

        RANK : 248703

        데이타베이스 활용 분야가 급증하고 업무 의존도가 높아짐에 따라서 데이타베이스에 축적되는 자료의 양이 급속히 늘어나고 있다. 이러한 자료들을 본연의 업무 운영에 적용하는데 그치지 않고, 업무 현장의 특성 분석에 필요한 실질적인 근거로서 활용할 수 있다는 인식이 확산되고 있다. 따라서 대용량의 데이타베이스로부터, 미리 예측할 수 없지만 의사 결정에 유용한 지식을 효율적으로 발견하기 위한 데이타마이닝 연구가 최근 활발히 진행되고 있다. 본 논문에서는 데이타마이닝의 여러 분야 중 특히 사건들의 상호 연관 관계 탐사에 초점을 맞추고자 한다. 사건들의 상호 관련성은 연관규칙(association rules)의 형태로 표현되는데, 연관규칙이란 특정 사건 집합의 발생이 다른 사건의 발생을 암시하는 경향을 표현하는 규칙이다. 기존의 연관규칙은 주로 사건이 발생한 전체 영역에서 성립하는 사건들 간의 연관성만을 고려하고 있다 그러나, 어떤 연관규칙은 비록 전체 영역에 대해서는 신뢰도가 그리 높지 않더라도, 특정 기간 혹은 특정 영역에서 강한 신뢰도로 성립할 수 있고, 그러한 정보를 알 수 있다면 다양한 의사 결정에 매우 유용하리라고 생각한다. 따라서, 본 논문에서는 임의의 부분 영역에서 강한 신뢰도를 갖는 연관성을 영역 연관규칙(ranged association rule)이라 정의하고, 대용량의 데이타베이스로터 영역 연관규칙이 성립하는 부분영역을 탐사하는 효율적인 알고리즘을 제안한다. 먼저, 주어진 이진 연관규칙에 대하여 미리 정의된 고정된 크기가 아닌 임의의 크기이고, 강한 신뢰도를 갖는 부분영역을 탐사하는 방법을 제시한다. 제안된 탐사 기법은 데이타 자체의 분포에 근거하여 가설적인 부분영역을 설정해 가는 데이타 기반(data-driven) 검색 기법을 이용한다. 따라서, 탐사 과정에서 불필요한 부분영역의 검색을 배제할 수 있다. 또한, 중복되는 데이타베이스 스캐닝(scanning)을 줄이기 위해, 주기억장치상에 관리할 수 있는 효과적인 자료구조를 설계한다. 제안된 자료구조는 부분영역의 크기를 확장해 가는 다음 단계의 검색에 필요한 정보를 제시하며, 단 한번의 데이타베이스 스캐닝에 의해 획득된다. 영역 연관규칙의 탐사는 먼저 단일 이진 연관규칙을 대상으로 1차원 사건 발생 영역에 대한 부분 영역의 탐사과정을 제시하고, 복수개의 이진 연관규칙을 수용할 수 있는 탐사 알고리즘으로 확장한다. 알고리즘의 확장 과정에서 연관규칙들이 포함하는 사건 집합에 근거하여 관련된 규칙들을 그룹핑하고, 각 그룹에 대해 단지 하나의 규칙에 대한 탐사만을 수행함으로 알고리즘 수행 성능을 상당히 향상시킨다. 또한, 사건 발생 영역을 다차원으로 확장하여 영역 연관규칙의 적용 범위를 넓힌다. 아울러 실험을 통해, 제안된 탐사 알고리즘에 실제 업무 현장에 적용할 만한 시간 비용으로 수행됨을 보인다. As database systems are widely spread and many business applications are heavily relying on database facilities, the volume of databases are rapidly increasing. It is realized that databases can be used as actual evidence of domain characteristics, rather than only used for their own operational purposes, In this regard, data mining techniques are taking growing attention in many applications, where they discover hidden but potentially useful knowledge for decision making from large databases. Among various data mining areas, this study focuses on the discovery of associations among several events. An association rule expresses the tendency that the occurrence of some events implies the co-occurrence of other events at the same time. Previously announced researches on association rules, mainly deal with associations in the whole domain. Some association rules, however, can have very high confidence in a sub-interval or a subrange of the domain, though not quite high confidence in the whole domain. Such kind of association rules are expected to be very useful in various decision making problems. In this paper, we define a rgnged association rule, an association with hight confidence worthy of special attention in a sub-domain, and further propose an efficient algorithm which finds out ranged association rules. Firstly, we suggest a data mining method that discovers sub-ranges where given binary association rules have high confidence. Note that such subranges are not delimited by predefined boundaries. In addition, the proposed method is data-driven in a sense that hypothetical subranges are built based on data distribution itself. It implies that any unnecessary subranges are not probed in the mining process. To avoid redundant database scanning, we devise an effective in-memory data structure, where essential information for the subsequent mining process is collected through single database scanning. In the mining algorithm of the ranged association rules, we suggest the exploring process of subranges in one dimensional domain for a single binary association rule, and later extend it to accept multiple binary rules. In this phase, we identify several groups of relevant association rules based on their event sets. Since only one association rule per each group is evaluated in the mining process, the performance of the process is significantly improved. The domains of events are extended to multi-dimensional ones, and it enriches the applicability of the algorithm. In addition, our simulation shows that the suggested algorithm has reliable performance at the acceptable time cost in actual application areas.

      • 연관 규칙과 분류 규칙을 이용한 은행 고객의 연체 성향 분석에 관한 연구 : 신용 카드 연체 중심으로

        신수일 西強大學校 大學院 2002 국내석사

        RANK : 248703

        2002년 6월 기준으로 가계 신용 총액은 국가 예산의 4배가 넘는 424조원에 이르고 있다. 이러한 가계 여신의 증가는 IMF 구제 금융 이후 경기가 살아나기 시작하면서 소비 활성화와 연계되어, 2001년 후반 이후의 부동산 경기의 상승과 함께 가계의 신용 대출은 급격히 증가하게 되었다. 또한 금융권에서도 저금리로 인한 금융 기관 자체의 유동성과 기업의 투자 부진 덕으로 일반 가계 대출을 통해 많은 수익을 올리고 있는 실정이다. 1999년 이후 가계 소비는 국민 총 소득을 계속 상회하고 있으며, 가계 신용 총계 역시 국내 총 생산을 넘어서고 있다. 그러나 이러한 가계 신용 대출은 결국 개인 신용 불량을 양산하고 있는 결과를 초래하였다. 2002년 6월 현재 개인 신용 불량자의 계속적인 증가로 인하여 그 총수는 2002년 10월에 이르러 253만 여명에 달하고 있다. 이러한 가계 신용의 증가와 개인 신용 불량자의 양산은 결국 기업 부실에 직접적인 영향을 미치게 되며, 국가 경제가 다시 어려워 질 수 있는 계기로 발전할 수 있다. 따라서 이러한 개인 부실을 막기 위해 사전 경고 역할을 할 수 있는 신용 평가 시스템의 필요성이 대두되고 있으며, 현재 한국의 상황은 기타 선진국에 비해서 신용 평가 시스템의 구축이 미약한 편이다. 신용 평가 시스템의 기본은 개인 대출에 대한 연체를 방지하는 것으로 시작할 수 있다. 본 연구에서는 이러한 연체 방지를 위하여 기존 금융권을 이용하는 개개인에 대하여 먼저 연체 성향 분석을 수행해 보고자 하였다. 연체 성향 분석의 대상은 현재 은행 고객으로 하였으며, 여러 연체 가운데 최근 급속한 시장 확장을 보이고 있는 신용카드 연체를 중심으로 연구하였다. 연체 성향이 분석되면, 기존 은행 고객에 대해서 향후 부실의 정도를 예측할 수 있으며, 또한 미래의 고객이나 새로 거래를 시작하는 개인에 대해서도 어느 정도 사전 경고 시스템을 만들 수 있게 된다. 이러한 연체 성향을 분석하기 위하여 본 연구에서는 규칙 생성이라는 방법과 전통적인 통계학 기법을 사용하였다. 통계학 기법의 경우 로지스틱 회귀 분석을 이용하여 회귀 모형을 구축하였으며, 규칙 생성의 경우 연관 규칙과 분류 규칙이라는 기법을 사용하여 연체로 인하여 불량으로 분류된 고객들이 갖는 규칙 집합을 생성하였다. 이러한 규칙이 집합으로 생성될 경우, 위에서도 언급했듯이 예측 기능을 수행할 수 있게 된다. 연구의 결과로는 로지스틱 회귀 분석이 가장 정확한 예측력을 보이고 있으나, 변수 선정에 있어서 다양한 변수를 모형에 반영하고 있지 못하며, 규칙 생성의 경우 분류 규칙과 연관 규칙에서 각기 중요 변수들이 규칙에 반영되어 있음을 알 수 있었다. 예측력은 연관 규칙이 분류 규칙보다는 낳은 결과를 보이고 있으며, 분류 규칙의 경우 분류 기준은 현금 서비스 금액/건수의 변수가 가장 중요한 변수로 선정되었으며, 연관 규칙의 경우 현금 서비스 채널 중 공동망 변수가 가장 중요한 것으로 분석되었다. 연관 규칙에서 신뢰도 기준 상위 10개 규칙의 경우 주로 신용 카드 사용에 관한 변수, 예를 들어 현금 서비스 금액/건수, 할부 금액/건수 등의 변수가 많이 사용되었으며, 하위 10개 규칙의 경우 신용카드 사용처에 해당하는 가맹업종 등의 변수가 사용되었다. 생성된 규칙에 대한 타당성 평가도 본 연구에서는 수행되었는데, 생성된 규칙의 경우 중복이나 포함 등 일관성 및 완전성에 어긋나는 규칙들이 존재하게 된다. 규칙 생성 전 이러한 것을 막기 위하여 사전, 사후 타당성 검증이 수행되며, 사전 검토로 규칙 템플릿 방법을 사용하였다. 연구 결과로서 생성된 규칙들을 검토해 본 결과 완전성에 어긋나는 규칙은 발견되지 않았으며, 규칙 일치성 중에서 중복 규칙과 포함 규칙이 상당 수 포함되어 있는 것으로 판정되었다. 따라서 이러한 규칙들에 대해서는 타당성 검토를 통하여 규칙이 제거되거나 기각되었다. 연관 규칙의 경우 총 130개의 규칙 중에서 27개의 규칙이 제거 또는 기각되었다. The total amount of credit in household economy exceeds about four times of budget of South Korea government. Such a increasing of household credit is caused of activated consuming of personal after overcome economic crisis in 1998. In 2002, real estate and property worth rise steadily that affect to drive taking a loan from bank. With together credit and bank industry had a full ability of lending money to household or industry. Since 1999, Household consumption is more than Gross National Income(GNI) and also total amount of household credit exceeds Gross Domestic Product(GDP). These situations is one of the reason of increasing of personal bad credit status. In October 2002, the person who registered in government as a bad credit status are over 2.5 million. For the purpose of prevent excess loan or credit and bad credit status, we should build of effective credit scoring system in every field of industry. However, most of corporation in Korea has weak credit scoring system and non activated joint ownership of credit information. The beginning of credit scoring system is analysis of delinquency trend of each individual or industry. Effective analysis of delinquency is starting point of good estimation of credit status in anywhere. This study performed the research on delinquency of bank customer specially credit card delinquency as a before step for build credit scoring system. The result of this study can be a standard of estimation of good or bad of personal and basic component of early warning system of default or overdue in various product. For this research, several method are used and that are a classical statistics method of logistic regression and generate a rules from enormous data. From logistic regression model, many variables are selected and built a optimal regression model. In case of rule generating, sets of rules classified good or bad credit status by association and classification rules. the sets of rules act as a estimator of good or bad classifier. The summary of study result are that logistic regression shows the accurate estimate but just small number of variables are selected for build regression model. In contrary the rules from association and classification have different variables are component of model. Cash service amount/number is major variables in classification rules and channel of cash service in common is the most important variables in association rules. From the confidence basis top 10 rules indicates that variables which are included in rules are related to cash service and installment service. The counterpart of confidence level(bottom 10) rules include variables which describe the place of credit card uses. In this study, rule validation process was performed for optimal sets of rules. Among generated rules, a lot of rules are object to completeness and inconsistency. For minimize these rules, pre-rule validation procedure was conducted by various mehtod. In this study rule template methods are used. There are no rules which disobeyed completeness but several rules are discarded the reason of inconsistency test. In association rules are generates 127 complete rules and 27 rules are eliminated or discarded.

      • 일반화된 연관규칙 발견을 위한 레벨 기반 데이터마이닝 시스템

        김온실 이화여자대학교 과학기술대학원 2001 국내석사

        RANK : 248702

        대량의 데이터로부터 숨겨진 패턴을 추출하는 데이터마이닝 기법 중에서 연관규칙 탐사는 데이터베이스에서 단위 트랜잭션 당 동시에 발행할 확률이 높은 항목들의 유형을 발견하는 기법이다. 연관규칙 탐사 과정에서 개념계층 (taxonomy)을 사용하여 보다 포괄적인 의미를 갖는 규칙을 찾아낼 수 있는데 이를 일반화된 연관규칙이라 하고 이를 통해 이전에는 간과되었던 중요한 규칙을 발견할 수 있다. 일반화된 연관규칙에 관한 기존의 접근방법은 후보항목집합의 각 항목에 대한 개념계층상의 모든 조상들을 트랜잭션에 추가한 후 확장된 트랜잭션에 대해 지지도를 계산하는 것인데 이 경우 연관규칙 기법의 단점중의 하나인 계산량 증가 문제가 더욱 두드러지게 된다. 본 논문에서는 모든 개념계층 레벨이 아닌, 사용자가 관심 있는 특정 레벨에 맞추어 연관규칙 탐사를 수행함으로써 규칙생성의 복잡도를 줄이는 방법을 제안하였다. 그러나 모든 항목을 한 레벨로 일반화하는 데는 무리가 따르기 때문에 관심 있는 항목의 경우 일반화 레벨을 따로 명시할 수 있도록 하여 사용자가 원하는 규칙을 발견하도록 하였다. 그리고 제안한 방법을 적용하여 마이닝 시스템을 설계 및 구현하였으며 일괄적인 일반화 수준을 변화시키고 특정 항목의 경우 일반화 수준을 별도로 선정하는 실험을 수행하였다. 실험 결과, 일반화 레벨이 높으면 높을수록 임계값을 만족시켜 더 많은 규칙이 발견되는 경향을 보이며, 특정 항목 선정 시 해당 항목이 나타나는 규칙이 발견되어 사용자가 원하는 형태의 규칙이 생성됨을 확인하였다. 따라서 본 논문에서 제안한 방법에 따라 계산량을 줄일 수 있는 일반화 작업을 수행함으로써 이전에는 나타나지 않던 포괄적인 의미를 갖는 규칙을 발견할 수 있으며 특정 항목의 경우 사용자가 별도의 일반화 레벨을 선정함으로써 사용자의 목적에 맞는 유용한 규칙이 생성될 수 있다는 결론을 얻을 수 있었다. Association Analysis, which is a data mining technique, allows us to discover correlations or co-occurrences of various transactional events. Given a large database of transactions, where each transaction consists of a set of items, and taxonomy information on the items, we can find more generalized associations between items at the higher level of the taxonomy. Dealing with items in the higher level of the taxonomy has several advantages over one level approaches. First, it allows more support measure and makes it easier to find new rules. Second, it is easy to conceptualize the new rule in the higher concept. A prior approach to the problem of mining generalized association rules is to replace each transaction with an "extended transaction" that contains all the items as well as all the ancestors of each item in the original transaction. This approach requires exponential time of computation as the transaction size grows. In this paper, we propose a generalization method that replaces all items to their ancestors at the proper level instead of extending original transactions with all the ancestors of the items. The user can select the proper level within the taxonomy of the items. Also we design and implement data mining system that satisfies these conditions. We conduct experimental tests on the proposed system using sample data. The results show that by selecting specific items we could find more valuable rules with useful information.

      • 전자상거래에서 연관규칙을 이용한 추천 시스템 설계

        오재영 명지대학교 대학원 2004 국내석사

        RANK : 248702

        인터넷 환경의 급속한 발전에 의한 정보 과잉으로 전자 상거래에서 상품 추천 시스템의 필요성이 대두 되었다. 추천 시스템은 고객의 성향을 파악하여 고객이 선호하는 상품을 추천해주는 시스템으로 대표적인 추천 방법으로 연관규칙 기반 기법이 있다. 연관규칙 기반 기법은 시스템의 트랜잭션을 분석하여 트랜잰셕내의 항목간의 연관성을 정규화하여, 발견되는 연관규칙을 추출하고 추출된 연관규칙에 해당하는 고객에게 상품을 추천하는 방식이다. 본 논문에서는 보편적인 연관규칙 기반 기법을 이용한 추천 시스템의 한계를 극복하기 위하여, 주어진 고객에게 적용되는 다수의 연관규칙에 순위를 부여하는 알고리즘을 제안하였다. 이를 위해 연관규칙의 신뢰도 정보와 고객과 연관규칙간의 유사도 정보를 이용하여 적합도를 측정하는 방식을 제안 하였으며 실험을 통한 비교 분석을 통하여 본 논문이 제안하는 순위부여 알고리즘의 타당성을 검증하였다. The Internet is increasingly used as one of the major channels for sales and marketing. However, it becomes harder and harder for users to find right products out of millions of products that the Internet offers. Recommendation systems help overcome this information overload by providing personalized suggestions based on a history of a user’s likes and dislikes. Among others, association rule-based filtering method is one of the most popular choice for automatic recommendation systems. The traditional association rule-based filtering generates association rules by analyzing transactions in database, and one or more products are recommended by selecting useful association rules. In this thesis, we propose an association rule ranking algorithm. In the algorithm, we measure how much a user is relevant to every association rule by comparing attributes of a user with head of an association rule. We show through experiments, that the accuracy of association rule-based filtering can be improved if we effectively rank association rules for a given user.

      • 구문적 패턴이 결합된 정량적 연관 규칙 탐사 시스템을 이용한 시계열 분석

        조상철 弘益大學校 大學院 2002 국내석사

        RANK : 248701

        Agrawal et al.에 의해 최초로 제안된 연관규칙 탐사 기법은 대용량 DB에서 연관성이 있는 항목들을 찾아내는 기법으로 일반적으로 정성적인 항목들이 얼마나 자주 동시에 발생하는 가를 파악하는 기법이다. 이 기법에 시간 개념을 도입하여 시계열 분석에 응용한 것이 순차 패턴 탐사 기법과 N-Dimensional Inter Transaction 연관 규칙 탐사 기법이다. 또한 원래 정성적인 데이터들 사이의 연관성을 탐사하도록 만들어진 기법을 정량적인 데이터에 적용하기 위해 정량적 연관규칙 탐사 기법이 소개되었다. 주가 등과 같이 복잡한 시계열이 가지는 정량적 모형만을 이용하여 예측하는 데에는 한계가 있으며 대용량 DB상에서 통계적인 모형을 수립하기 곤란하다. 이에 대한 다른 접근 방법이 시계열 차트의 기술적 분석(Technical Analysis)이다. 기술적 분석은 차트 상에 나타난 패턴을 인식하고 인식된 패턴이 시계열에 미치는 영향을 분석하여 주가를 예측하는 방법을 사용한다. 이를 위한 기본 가정으로 시계열 상에서 어떠한 특정 패턴이 나타나는 것은 또 다른 특정 패턴들 사이의 선후관계에 의하여 발생한다는 것이다. 본 연구에서는 기존의 연관 규칙을 이용한 주가 분석에 이러한 기술적 분석 방법을 도입함으로써 시계열 차트 상에서 자주 발생하는 패턴의 인식과 그 패턴이 시간의 변화에 따라 시계열 차트에 미치는 영향의 연관 규칙을 탐사하였다. 특히 주가의 일간 변동과 같은 단기적 변동은 Noise에 가깝기 때문에 이를 제거하고, 주가의 장기적인 변화 추이를 예측하는데 주안점을 둔다. 이를 위하여 본 연구에서는 시계열 상에서 발생하는 패턴을 표현하기 위하여 구문적 패턴(Syntactic Pattern)을 사용하였으며 시계열 자체의 형태와 기울기 등과 같이 정성적이지 않으면서, 문장의 형태로 파악 또는 표현하기 곤란한 패턴들은 유사도에 의하여 인식한 후 이를 다시 구문적으로 표현하였다. 또한 패턴들 사이의 선후 관계에 따른 연관규칙의 탐사는 표현된 구문적 패턴들 사이의 Inter Transaction 연관 규칙을 탐사함으로써 패턴 발생에 따르는 의미 있는 주가 변동의 예측을 가능하게 하였다. Association Rule, suggested by Agrawal at all, is a method to find items occurs together on large scale Data Base, Usually, application of association rule is focused to qualitative item. An application of association rule on the problem that need to concern the time-dimension is the Sequential Pattern, and N-Dimensional Inter Transaction Association Rule. Analysis of large sized and complicated time series, such as stock price, using statistical models is limited. Therefore, the technical analysis is useful to this kind of problem, Using technical analysis, we can find typical patterns and analyze its effects to original time series, and predict future price. An assumption, The price must have some relationship with the symptomatic patterns that have occurred in the charts a step ahead of time, t be need on the technical analysis. In this work, we proposed adapting technical analysis to N-dimensional association rule to find patterns effects the occurrence of other patterns. We used syntactic pattern to express pattern, and similarity based pattern recognition to recognize the quantitative, and the pattern that its shape is important, Also, we can find the time of each pattern occurred, by using N-Dimensional Inter Transaction Association Rule.

      • 단백질 기능 분석을 위한 연관 규칙 탐사

        김정자 전남대학교 대학원 2002 국내박사

        RANK : 248701

        바이오정보학(bioinformatics)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 현재, 인간 유전체 프로젝트(Human Genome Project)를 통하여 유전자의 서열정보가 밝혀짐에 따라, 유전체 연구의 주된 방향이 다양한 유전자에 대한 기능을 분석하고자 하는 측면으로 시작하고 있다. 발견된 유전자 정보는 주제별로 다수의 생물학 데이터베이스에 저장되어 웹을 통하여 제공되고 있으며, 여러 전산 기술을 이용하여 데이터베이스 통합 검색을 위한 시도가 이루어지고 있다. 또한 대량의 지놈 데이터들이 산출됨에 따라 기존의 저장 및 분석 방식으로는 대량의 유전자 서열 정보 및 새로운 형태의 생물학 자료(서열, 이미지)의 처리가 불가능 하기 때문에 새로운 분석 도구의 개발을 요구하고 있다. 서열 분석은 핵산 또는 단백질 서열 정보의 분석을 통하여 그 구조와 기능을 예측 하고자하는 연구 방법이다. 즉 서열의 특성 및 진화적 관계를 파악하기 위한 효과적인 알고리즘을 통하여 새로운 생물학적 지식들을 발견하고자 하는 것이다. 지금까지 연구된 서열 분석 알고리즘들은 주로 서열간의 상동성(homology) 검색을 위한 정렬 알고리즘들과, 주어진 서열들로부터 일정한 한 개 이상의 패턴을 찾아내거나 또는 데이터베이스에 이미 등록 되어있는 서열 패턴을 비교 검색해 주는 도구들이 개발되어 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 기능을 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에서 동시에 나타나는 부서열 간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열 간의 연관성을 표현하기 위한 모델로서 서열 연관 규칙 알고리즘을 제안한다. 기존의 트랜잭션 연관 규칙 탐사 알고리즘과는 달리 서열 데이터라는 특성을 감안하고 이를 규칙 탐사과정의 각 단계에서 고려한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 생물학 연구에 필요한 정확한 규칙 생성을 유도하고자 탐사된 규칙에 대하여 마지막 단계에서 유의미한 규칙들로 집약한다. 제안하는 알고리즘은 4단계로 구성된다. 주어진 의미 있는 집합의 단백질 서열을 가지고 1단계에서 여러 서열에 빈발하게 발생하는 임의의 빈발 부서열 집합을 찾는다. 2단계에서는 임의 길이의 자주 발생하는 부서열 조합을 발견한다. 3단계에서는 획득된 조합으로부터 높은 신뢰도를 갖는 연관 규칙을 구성하고, 마지막 단계에서는 규칙간에 포함되는 부규칙(sub-rule)을 제거하여 규칙을 요약한다. 생물학적으로 발견된 공통적인 패턴을 모티프(motif)라 하며, 제안하는 서열 연관규칙 알고리즘은 발견된 한 개 이상의 모티프들의 연관성을 규칙의 형태로 나타낸다. 생물 현장에서 쓰이고 있는 서열의 유사성이나 한 개 이상의 모티프를 비교 검색해주는 기존의 도구와는 달리 제안하는 시스템은 주어진 서열에서 여러 패턴을 발견하고, 이들 패턴들끼리의 연관성을 사용자가 요구하는 지지도와 신뢰도 계수를 이용하여 타당성 있게 검증해준다. 탐사된 단백질 부서열 간의 연관 규칙은 단백질의 기능을 밝혀내는데 더 많은 실험을 위한 의미 있는 단서를 제공할 것이다. 아울러, TRANSFAC 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 다양한 실험 결과를 제시한다. Bioinformatics means that various computer technology which not only support experimental project by storing, managing and analysing the data which originate from biological field, especially gene research at molecular level, but also enable experimental plan of functional prediction and regulation. At present, The focus of genome researches also manufactures aspect to analyze the function of various gene, as the sequence information of genome has been manifested through Human Genome Project. Discovered genetic information is offered by many biological database with subject through web, and at present a trial for database integration search by using multiple computer technology is accomplished. And, as the vast amount of genomic data was produced, established preserving and analysing method can not merge multiple genomic information and new shaped biological data (sequence, image), so new analysing tool is required. Sequence analysis is research method, which expect the structure and function by analysing nucleic acid or protein sequence information. It is said that, new biological knowledges must be discovered through effective algorithm for understanding the sequence characteristics and evolutionary relationship. The sequence analysis algorithms which were researched until now are usually alignment algorithms for search of homology between sequences and tools which discover regular one more pattern from the given sequences, or compare and analyse sequence pattern already registered in the database. In this thesis, we propose the data mining technique for expectation of the protein function which is one of the most important elements of deciding the protein function. We explain that the relationship between subsequence which occurred simultaneously in the amino acid sequence, the primary structure of protein, is important clue for deciding the secondary or tertiary structure of corresponding protein, and propose the sequence association rule, as the model for presentation of relationship between amino acid subsequences. Contrary to established transaction association rule discovering algorithm, we made allowance for the characteristics of sequence data and considered them at each step of rule discovering process. We gave a new definition of support degree and confidence degree for estimating the usefulness of sequence relationship rule and gathered significant rules for making the exact rule prediction which is needed for biologic research among the discovered rules in final stage. Proposed algorithms composed of four stages. Given a meaningful collection of protein sequences. In first stage we search random frequent subsequence collections which occur frequently at many sequences. In second stage, we discover random length frequent subsequence collection. In third stage, we compose relationship rules with high significance form acquired collections and in final stage, summary the rules by deleting the sub- rules which is included in the rules. Biologically discovered common pattern is motif, and proposed sequence association rule algorithm represent the relationship of discovered one more motif as the shape of rules. Contrary to existing tools which compare and search the similarity of sequences used at biological field, or one more motif, proposed system discover multiple patterns from the given sequence, and appropriately verify the relationship between these patterns by using the support degree and significance degree coefficient. The association rules between discovered protein subsequence will offer a meaningful clue for the more experiments of identify protein functions. And, by using the protein sequence data which is collected from TRANSFAC protein database, we present multiple experimental results of propose.

      • 음식과 와인 조화와 와인선택속성에 관한 연구 : BWS, 연관규칙 분석방법을 이용하여

        한경은 경희대학교 대학원 2021 국내박사

        RANK : 248700

        고객들의 개성이 다양해지고 원하고자 하는 것들도 세분화되면서 고객화 된 서비스가 중요시되고 있다. 다양한 와인을 소비하고자 하는 소비자들의 선호에 따라 와인의 유형도 폭넓어지면서 와인 선택의 트렌드도 변화하고 있다. 이러한 상황을 인식하면서 주 고객층의 니즈와 특성을 파악하고 음식과 와인을 매칭하여야 한다. 데이터를 통한 객관화된 자료를 활용하여 메뉴판을 작성하는 것이 필요한데, 소비자가 음식과 와인을 매칭할 때 같이 먹는 음식들을 살펴보고 기본적으로 정해진 규칙대로 즐기고 있는지 다른 규칙으로 섭취하고 있는지를 알아보려고 한다. 본 연구에서는 변화하는 와인선택속성의 선호도를 알아보고 와인 소비자가 음식과 와인을 매칭할 때 섭취한 특정 음식을 SNS(페이스북, 인스타 등)상에서의 후기들을 통해 어떠한 음식들이 있는지 알아보고 음식과 와인 간의 연관규칙을 찾아보고자 한다. 또한, 소비자의 와인음용특성별(음용장소, 지식수준, 음용횟수)로 음식구매의 패턴을 파악하고 와인소비자의 음식 선택 성향 및 연관성 있는 음식을 제시하려고 한다. 실증분석 결과를 보면 첫째, 일반적으로 소비자들이 와인을 구매할 때 고려하는 선택 속성들을 관련 선행연구들을 기초로 하여 13개로 정리하였다. 그리고 BWS 분석방법을 이용하여 이러한 선택 속성들에 대한 종합적인 우선순위를 도출하였다. 일반적인 집계법을 사용하여 와인구매 시 선택 속성으로 13개의 요인들의 상대적인 중요도를 파악하였다. 결과를 살펴보면, 13개의 요인들 가운데 맛(1.87), 가격(1.34), 추천(1.15) 순으로 가장 중요한 속성으로 선택될 가능성이 높은 것으로 나타났으며 이에 반해, 알콜도수(0.84), 레이블(0.68), 색(0.58) 등은 상대적으로 그 중요도가 낮은 것으로 나타났다. 또한 13개의 요인들을 인구통계학별로 살펴보았는데 성별, 결혼여부, 연령, 가구형태, 소득수준 모두 맛을 가장 중요시 하는 것으로 나타났고 반면에 와인의 색을 중요하지 않은 것으로 분석되었다. 둘째, 음식과 와인구매의 특성을 살펴보기 위해 와인종류별로 빈도분석을 실시하였고 각 음식별로 상위 선택 품목이 무엇인지를 알아보았다. 레드와인과 같이 먹는 음식은 스테이크가 가장 높은 순위를 보였고 화이트와인은 해산물, 스파클링 와인은 치즈, 로제와인은 파스타가 가장 높은 순위를 보였다. 셋째, 인구통계학별로 음식패턴을 살펴보았는데, 4가지 와인종류 모두가 성별, 연령, 가구형태, 소득수준에 상관없이 같이 먹는 음식과 같이 먹지 않는 음식이 비슷한 것으로 나타났다. 레드와인과 같이 먹는 음식은 스테이크가 가장 높은 순위를 보였고 일식이 가장 낮은 순위를 보였다. 화이트 와인은 해산물이 가장 높은 순위를 보였고 중식이 가장 낮은 순위를 보였다. 스파클링 와인은 치즈가 가장 높은 순위를 보였고 중식이 가장 낮은 순위를 보였다. 로제와인은 파스타가 가장 높은 순위를 보였고 중식이 가장 낮은 순위를 보였다. 특히, 치즈는 4가지 와인종류 모두 상위권에 자리하고 있어 와인과 잘 어울리는 음식라고 생각하는 소비자가 많다는 것을 파악할 수 있다. 넷째, 데이터 마이닝 기법 중 하나인 연관성 분석을 이용하여 음식과 와인을 매칭하여 먹어 본 소비자들의 음식패턴을 파악하였다. 와인 종류별로 13가지 음식을 바탕으로 하여 음식을 매칭 시, 취식한 음식의 가장 의미 있는 규칙은 다음과 같다. 레드와인을 음용할 때 주로 먹는 음식은 스테이크, 파스타, 치즈, 한식으로 파악할 수 있으며 주로 피자를 먹은 사람이 스테이크를 먹을 확률이 높게 나타나 연관성이 매우 높다고 할 수 있다. 화이트와인을 음용 할 때 주로 먹는 음식은 해산물, 일식, 파스타로 파악할 수 있으며 주로 일식을 먹은 사람이 해산물을 먹을 확률이 높게 나타났다. 스파클링 와인을 음용 할 때 주로 먹는 음식은 치즈, 과일로 파악할 수 있으며 치즈를 먹은 사람이 과일을 먹을 확률이 높게 나타났지만 약간 미비하다고 볼 수 있다. 그 이유는 스파클링 와인은 축하주의 의미로서 주로 음식 없이 단독으로 먹는 경우가 많아서 조사 대상자가 중 설문을 하지 않은 수가 많은 것으로 보인다. 로제와인을 음용 할 때 주로 먹는 음식은 피자, 파스타, 스테이크로 파악할 수 있으며 피자를 먹은 사람이 파스타도 먹을 확률이 높게 나타났다. 이를 통해 각각의 와인종류별로 음용할 때 어떤 음식들을 함께 먹는지 좀 더 포괄적으로 파악할 수 있다. 다섯째, 음식과 와인을 매칭하여 먹어 본 소비자들을 와인음용별(음용장소, 지식수준, 음용횟수)로 구분해 음식패턴을 파악하였다. 와인 종류별로 13가지 음식을 바탕으로 하여 음식을 매칭 시, 취식한 음식의 가장 의미 있는 규칙은 다음과 같다. 레드와인을 기준으로 음용장소 중에서 집에서의 음용을 보면 피자를 먹은 사람이 스테이크를 먹을 확률이 높게 나타나 해당 음식 선택에 있어서 연관성이 매우 높다고 할 수 있다. 지식수준별로 지식수준이 거의 없는 소비자를 보면 파스타를 먹은 사람이 스테이크를 먹을 확률이 높게 나타났다. 음용횟수별로는 월평균2회 이하를 보면 피자를 먹은 사람이 스테이크를 먹을 확률이 높게 나타났다. 이것으로 보아 어떤 음식을 먹든 다음에 먹게 되는 음식은 스테이크가 될 확률이 높다는 것을 알 수 있다. 다음과 같이 소비자의 선택에 영향을 줄 수 있는 와인선택속성을 파악하여 선호도의 순위별로 중요성을 제공할 것으로 보이며 와인업계에 적용하여 영업 활성화를 위한 마케팅 자료로 이용될 것으로 보인다. 또한 연관규칙(Association Rule) 방법을 각각의 와인종류별로 음식패턴에 도입하여 음식과 와인의 구매패턴을 도출함으로써 업장에서는 세분화된 서비스로 고객의 만족과 매출증대에 기여할 것으로 본다.

      • 데이터마이닝 기법을 활용한 외식소비자들의 구매 연관성 분석

        이지민 경희대학교 대학원 2020 국내박사

        RANK : 248699

        In an era of rapidly changing business environment, accurately identifying the needs of customers has long been considered a very important task. As big data is now available, various studies have been conducted to predict purchasing patterns by analyzing large amounts of consumer purchasing data. In recent research on the hospitality industry, purchasing pattern analysis based on data mining has emerged as an important methodology. Among them, RFM(Recency, Frequency, and Monetary) analysis and association analysis are frequently used. Based on past purchasing data, the RFM methodology identifies a profitable group of customers by analyzing information about how recently, how frequently, and how much the purchase has been made. Association rule methodology contrasts with the passive methodology that only tests random hypotheses set by researchers, with a technique to explore the relationship between variables from simple binomial data. In this dissertation, the consumer panel data and credit card payment information provided by EMBRAIN is used to conduct a sociological analysis that classifies out customers and discover significant association rules among classified clusters. Out of the total 115,000 panels, panel data of 11,187 who agreed to provide credit card payment information was collected, then 6,980 consumers who paid for dining out are to be extracted and analyzed. To handle large amounts of data, RFM analysis, Sparse K-means cluster analysis, and association rule analysis are used as research methodologies. The purchase concentration by age, gender, income, educational background, marital status, regional and residential status for 152 restaurant brands well known to the general consumer is to be looked at, and to see if there are any differences in purchases based on demographics. Instead of consumer choice attributes or surveys, modified RFM analysis is utilized using the actual credit card payment information. In this dissertation, modified RFM analysis is called FMP analysis using the frequency(F), the total amount(M) of restaurant payment, and the percentage of restaurant payment out of total credit card expenditures(P). Based on prior research and industry experts' advice, percentage of restaurant payment out of total credit card expenditure is used instead of recency. By looking at the ratio of payments to dining out, it is expected to better understand how much the consumer puts weighs on dining out. After segmenting 6,980 eating out consumers into 27 groups(F: 3 groups × M: 3groups × P: 3 groups), FMP lower, middle, and upper value is analyzed. Then Sparse K-means cluster analysis is used to group the customers with similar characteristics and association rules is extracted by cluster and identify the characteristics of the restaurant consumer. Based on a total of 36,581 payments, the top five brands were Paris Baguette, Starbucks, McDonald's, Baemin, Lotteria, with many coffee shops at the top. Fast-food topped the list for men, and Paris Baguette topped the list in almost every field, but Mom'sTouch topped the list for 10s. Delivery application Baemin ranked in top for 10s, 20s and 30s, but the frequency decreases sharply in their 40s and older who are not actively utilizing the app. FMP analysis to compare the lower values(111 groups), the median values(222 groups) and the upper values(333 groups) is conducted, with each group showing differences in demographic information and different association rules. In addition, whether FMP 333 group is truly the top-rated group of restaurant consumption is carefully considered, and 331 and 332 groups, which have different rates of payment for dining out of total credit card spending(P), are also valuable groups that should be noticed by restaurant industry. Later, the Sparse K-means cluster analysis was utilized to classify into four clusters, which is an algorithm that simultaneously seek to maximize similarities within a cluster and differences between clutters. Each of the four clusters was named dine-out heavy user, dine-out medium user, dine-out light user, dine-out rare user, and classified into groups with high FMP values, similar values, low values and very low values compared to the overall mean, showing different demographic information and association rules. Key words: credit card payment, diners, RFM analysis, cluster analysis, association rule 급변하는 경영 환경 변화의 시대에 고객의 니즈를 정확하게 파악하는 것은 예전부터 매우 중요한 과제로 인식되고 있다. 현재 빅데이터가 활용 가능하게 됨으로써 대량의 소비자의 구매 데이터를 분석하여 구매 패턴을 예측하는 다양한 연구가 진행되었다. 최근 환대산업 연구에 있어 데이터마이닝에 바탕을 둔 구매 패턴 분석기법이 중요한 방법론으로 떠오르고 있다. 그 중에서도 RFM(Recency, Frequency, Monetary: 최근성, 빈도, 금전가치) 분석과 연관성 분석이 자주 이용되고 있다. RFM 방법론은 과거 구매 데이터를 바탕으로 고객의 구매 시기, 구매 빈도, 구매 총액의 정보 분석을 통하여 수익성 있는 고객 그룹을 찾아내는 것이며, 연관규칙은 간단한 이항 데이터로부터 변수 사이의 관계성을 탐색적으로 찾아내는 기법으로 연구자가 설정한 임의의 가설 검정만을 하는 피동적인 방법론과 대비된다. 본 학위 논문에서는 ㈜마크로밀엠브레인에서 제공한 소비자 패널데이터와 신용카드 결제정보를 활용하여 외식소비자들을 분류하고 분류된 군집 사이에서 유의미한 연관규칙을 발견하는 사회과학적 분석을 해보고자 한다. 총 11만 5천여 명의 패널 중 신용카드 결제정보활용에 동의한 패널데이터 11,187명분을 받아서 외식분야에 결제를 한 외식소비자 6,980명을 추출하여 분석을 진행한다. 대량의 데이터를 처리하기 위하여 데이터마이닝 기법인 RFM분석, Sparse K-평균 군집분석, 연관성분석을 연구방법론으로 활용한다. 일반 소비자에게 잘 알려진 152개의 외식브랜드에 대한 연령별, 성별, 소득별, 학력별, 결혼여부별, 지역별, 주거보유 현황별 구매집중도를 알아보고, 인구통계 정보를 바탕으로 집단별 구매에 차이가 있는지 파악해보고자 한다. 그간 이루어진 소비자 선택속성이나 설문에 근거하는 대신 실제 결제 정보를 바탕으로 외식 결제 빈도(F: frequency), 외식 결제 총액(M: monetary), 전체 신용카드 지출 중 외식 결제 비율(P: proportion of restaurant expense over all other expenses)을 활용한 변형된 RFM분석인 'FMP분석‘을 시행한다. 선행연구와 업계 전문가들의 조언에 따라 빈번하게 일어나는 외식 결제의 특성에 기안하여 최근성(R)을 제외하고 대신 전체 신용카드 지출 중 외식 결제 비율(P)을 대신 넣어 외식소비자가 외식에 얼마만큼의 지출을 하는지를 알아보기로 한다. 이는 소비자의 전체 신용카드 지출을 파악할 수 있기에 가능하며, 외식 결제 비율(P)을 알아봄으로써 해당 외식소비자가 외식에 지출하는 중요도를 더 잘 알아볼 수 있으리라 예측하기 때문이다. 고객을 총 27개의 그룹(F: 3개 × M: 3개 × P: 3개)으로 세분화하여 FMP 하위값, 중위값, 상위값 그룹을 분석한 후, Sparse K-평균 군집분석을 활용하여 고객을 비슷한 특성끼리 묶어 해당 군집별 연관규칙을 추출하고 외식소비자의 특성을 알아본다. 빈도분석 결과, 총 36,581번의 결제를 바탕으로 상위 5개 브랜드는 파리바게뜨, 스타벅스, 맥도날드, 배달의민족, 롯데리아였으며 커피전문점 브랜드 다수가 상위권을 차지하였다. 인구통계 특성별 구매집중 빈도분석에서는 다음의 특징을 보였다. 남성의 경우 패스트푸드가, 여성은 제과점과 커피전문점 결제가 상위권을 차지하였으며, 거의 모든 분야에서 파리바게뜨가 1위를 차지하였으나 10대에서는 맘스터치가 1위를 기록한 흥미로운 결과를 보였다. 배달의민족은 10대, 20대, 30대에서는 모두 상위권을 기록하였으나, 40대 이후에서는 9위 밖으로 밀려난 것을 보아 앱 활용이 활발하지 않은 40대 이상에서 사용빈도가 급감함을 알 수 있다. 학력별 결제에서 주목할 점은 같은 커피브랜드라도 이디야가 비슷한 순위를 기록한 것에 반해 스타벅스는 학력이 올라감에 따라 순위가 상승하는 것을 볼 수 있다. 또한 투썸플레이스는 1억 원 이상에서 처음 등장하며 9위를 기록하였는데 학력에서도 대학원 재학과 대학원 졸업에만 등장하여, 고소득 고학력 소비자들이 선호하는 브랜드로 해석할 수 있겠다. FMP분석을 활용하여 분류된 27개 그룹을 바탕으로 하위값(111 그룹), 중위값(222 그룹), 상위값(333 그룹)을 비교해보았는데, 각 그룹은 인구통계정보에서부터 차이점을 보였으며, 연관규칙 역시 다르게 나타났다. 또한, FMP 333 그룹만이 진정 외식 소비의 상위값 그룹인지에 대한 고찰을 해보았는데, 외식 결제 빈도(F)와 외식 결제 총액(M)이 똑같이 많더라도 전체 신용카드 지출 중 외식부분의 결제 비율(P)이 다른 331, 332 그룹 역시 외식 종사자들이 눈여겨 봐야하는 가치 있는 그룹임을 밝혔다. 이후, Sparse K-평균 군집 분석을 활용하여 4개의 군집으로 분류하였는데, Sparse K-평균 군집분석은 클러스터 내의 유사도 및 클러터 간의 차이 극대화를 동시에 추구하는 알고리즘이다. 따라서 복잡한 구조의 데이터 군집화에서 클러스트들을 보다 선명하게 구분지어 더 정확한 분류를 가능하게 하는 장점이 있다. 4개 군집은 각각 외식결제 헤비유저형(heavy user), 미디움유저형(medium user), 라이트유저형(light user), 레어유저형(rare user)로 명명하였으며, 전체평균과 비교하여 FMP값이 높은 그룹, 비슷한 그룹, 낮은 그룹, 아주 낮은 그룹으로 분류되었다. 이들은 각기 다른 속성의 인구통계 정보와 연관규칙을 보였다.

