RISS 학술연구정보서비스

검색
다국어 입력

http://chineseinput.net/에서 pinyin(병음)방식으로 중국어를 변환할 수 있습니다.

변환된 중국어를 복사하여 사용하시면 됩니다.

예시)
  • 中文 을 입력하시려면 zhongwen을 입력하시고 space를누르시면됩니다.
  • 北京 을 입력하시려면 beijing을 입력하시고 space를 누르시면 됩니다.
닫기
    인기검색어 순위 펼치기

    RISS 인기검색어

      검색결과 좁혀 보기

      선택해제
      • 좁혀본 항목 보기순서

        • 원문유무
        • 음성지원유무
        • 학위유형
        • 주제분류
          펼치기
        • 수여기관
          펼치기
        • 발행연도
          펼치기
        • 작성언어
        • 지도교수
          펼치기

      오늘 본 자료

      • 오늘 본 자료가 없습니다.
      더보기
      • Weakly Supervised Semantic Segmentation Using Image Masking and Clustering

        김상태 서울대학교 대학원 2022 국내박사

        RANK : 2942

        Image semantic segmentation, a task to classify each pixel among the interested classes, is an important problem with a wide range of applications such as autonomous driving, medical diagnosis, industrial automation, and aerial imaging. In recent years, deep convolutional neural networks have shown outstanding performances in image semantic segmentation. A main bottleneck of these approaches is that it requires large amount of fully-annotated data for training such networks. Since the acquisition of fully-annotated dataset is laborious and expensive, weakly supervised semantic segmentation (WSSS) has been suggested as an promising approach for future research direction. There are various types of weak labels for semantic segmentation, for instance, image-level labels, points, scribbles, and bounding boxes. Among these weak labels, image-level labels are popularly used in WSSS for its simplicity. In essence, image-level label denotes the existence of objects in an image. In this dissertation, we consider the problem of weakly supervised semantic segmentation using image-level label. In the first part of dissertation, we introduce a new training strategy for weakly supervised semantic segmentation. In the proposed approach, we apply image masking technique inspired by human visual system that focuses on interesting vision field and ignores irrelevant parts. By guiding the attention of classification network using the outputs of the segmentation network, the classification network evaluates the qualities of segmentation output and encourages the segmentation network to generate more accurate output. To boost the segmentation performance, we also introduce simple yet effective technique to train the classification and refine the saliency map. Our experiment results demonstrate that our approach is effective in solving weakly supervised semantic segmentation. In the second part of dissertation, we introduce a superpixel discovery method that generates semantic-aware superpixels. Our superpixels have new properties that the apart pixels can be grouped into a superpixel if they have similar semantic features. Also, the number of superpixels depends on the complexity of images, not the pre-defined number. Our superpixel expresses semantically similar group of pixels with a very small number of superpixels. We train the segmentation network using superpixel-guided seeded region growing technique which improves the qualities of initial seed. Our extensive experiments show that our approach achieves competitive segmentation performance with the state-of-the-arts in weakly supervised semantic segmentation. 영상 분할은 영상 속 모든 픽셀을 관심있는 클래스로 분류하는 작업으로, 자율 주행, 의료 진단, 산업 자동화, 위성 영상 등에 널리 활용될 수 있는 중요한 문제이다. 최근에는 딥 컨볼루셔널 뉴럴 네트워크를 사용하여 영상 분할을 해결하는 방법이 그 우수한 성능으로 주목 받고있다. 이 접근 방법의 어려운 점은 네트워크를 학습시키기 위해서 대량의 정교하게 제작된 레이블이 필요하다는 점이다. 이러한 데이터로 구성된 데이터셋을 얻는것기에는 시간과 비용이 많이 소모되기 때문에 미래의 연구 방향으로 약지도 상황에서 영상 분할을 수행하는 것이 유망한 접근 방법으로써 다루어지고 있다. 영상 분할에 사용 할만한 약지도를 위한 레이블의 종류에는 영상 단위의 레이블 또는 점, 낙서, 경계 사각형 등이 있다. 이 중 영상 속에 존재하는 물체의 종류를 나타내는 영상 단위의 레이블이 가장 단순하고 제작이 쉽기 때문에 대부분의 연구에서 이 레이블이 활용되고 있다. 이 논문에서는 영상 단위의 레이블을 사용한 약지도 영상 분할 문제를 다룬다. 논문의 첫번째 부분에서는 양지도 영상분할을 위한 새로운 학습 기법을 소개한다. 제안하는 방법에서는 관심있는 시각 영역에 집중하고 관련 없는 부분을 무시하는 인간의 시각계로부터 영감을 얻은 이미지 마스킹 기법을 활용한다. 분할 네트워크로부터 얻은 출력으로 분류 네트워크가 집중 할 영역을 제한하여 분류 네트워크가 분할 네트워크의 출력의 질을 평가하도록 하며, 분할 네트워크가 더욱 정확하게 출력할 수 있도록 한다. 분할 성능을 향상시키기 위하여 간단하지만 효과적인 분류 네트워크 학습 방법과 특징 지도 개선 방법을 제안한다. 다양한 실험을 통하여 제안하는 방법으로 약지도 영상 분할을 효과적으로 해결할 수 있음을 보인다. 논문의 두번째 부분에서는 의미 인지 슈퍼픽셀을 생성하는 알고리즘을 제안한다. 제안하는 알고리즘으로 얻은 슈퍼픽셀은 멀리 떨어져 있더라도 비슷한 성징을 가질 경우에 하나의 묶음으로 합쳐질 수 있다는 새로운 특징이 있다. 또한, 슈퍼픽셀의 수는 미리 정해놓은 개수로 정해지는 것이 아닌 영상의 복잡도에 의해 정해진다는 특징이 있다. 제안하는 방법으로 얻은 슈퍼픽셀은 의미가 비슷한 픽셀들을 아주 적은 수의 슈퍼픽셀들로 표현해 낼 수 있으며 제안하는 슈퍼픽셀을 사용하여 기존의 슈퍼픽셀로는 달성하기 어려운 높은 정확도의 약지도 영상 분할 성능을 얻을 수 있다. 제안하는 분할 네트워크를 학습시키기 위하여 슈퍼픽셀에 의해 제한되는 시드 영역 확장 방법을 통해 밀도가 낮은 레이블의 질을 향상시키고 이것을 새로운 레이블로 사용한다. 다양한 실험을 통해 제안하는 방법이 약지도 영상 분할에 효과적임을 보인다.

      • 기억성 경도인지장애 환자에서 아밀로이드 병리여부에 따른 의미기억장애의 질적 비교 및 네트워크 기반 연결성 분석 : Qualitative comparison of semantic memory impairment combined with network-based connectivity analysis in patients with amnestic mild cognit

        김지은 울산대학교 대학원 2017 국내박사

        RANK : 2939

        연구 목적: 알츠하이머병의 경과에 있어서 의미기억의 저하는 삽화기억만큼 임상에서 흔히 접하는 증상이다. 정상노인에서도 쉽게 관찰되는 삽화기억 저하와 달리 그 변화 경과가 완만하므로, 의미기억에 대한 자세한 평가를 하는 것은 정상 노화로부터 병적 퇴행을 감별함에 있어서 도움을 줄 수 있을 것이다. 그러나 질환의 초기에 의미기억 저하를 발견하는 것이 어려우므로, 일반적으로 시행하는 양적 평가 뿐만 아니라 질적 평가의 병행이 중요할 것으로 생각된다. 본 연구에서는 베타-아밀로이드(Aβ)로 대표되는 알츠하이머 병리 유무에 따라 기억성 경도인지장애(amnestic mild cognitive impairment)를 양분하고, 의미기억 수행에 대한 질적평가 항목의 비교 및 네트워크 기반 연결성 분석을 시행하였다. 이를 통해, (1) 임상적 중증도의 유사성에도 불구하고 의미기억 저하에 있어서 Aβ양성 aMCI와 Aβ음성 aMCI 사이에 차이가 있는지 (2) aMCI 에서 알츠하이머 치매로 이어지는 연속선상의 패턴이 의미기억 저하에 있어서 관찰되는지 (3)구조적 연결성 차이를 네트워크 개념으로 접근하여,두 aMCI군 사이에 차이가 있는지 검증하고자 한다. 연구 재료 및 방법: 2015년2월부터 2016년8월까지 기억장애 클리닉을 내원한 환자 중 연구에 동의한 총 314명이 서울신경심리검사(SNSB), 3 tesla MRI, 18F-Florbetaben amyloid PET 검사를 시행 받았다. 시각적 측정척도에 기반하여 aMCI를 Aβ양성과 음성으로 양분하였고 Aβ음성 정상노인과 Aβ양성 알츠하이머 치매를 대조군으로 선정하여 총 네 군의 신경심리검사 및 DTI 분석을 진행하였다. 의미기억에 대한 질적 평가 항목으로는 대면이름대기 과제의 오류 유형 분석, 의미 힌트 및 음절 힌트 후 증가된 정답 개수 및 정확률, 생성이름대기 과제의 전환수, 군집수, 평균 군집크기가 포함되었다. 구조적 연결성 비교를 위해서는 network based statistics(NBS)를 이용한 diffusion tensor imaging(DTI) 분석을 시행하였다. 연구 결과: 총 217명의 대상자 중 Aβ양성aMCI는 56명, Aβ음성aMCI는 66명 이었다. ApoE4 대립형질의 빈도에 있어서는 Aβ양성aMCI가 Aβ음성aMCI에 비해 현저히 높았으며 (53.5% vs 22.2%, p=0.002) 그 외 인구통계학적 변인에서 두 군간 차이는 없었다. Z-score에 기반한 신경심리검사의 양적 평가에서는 시각적 기억력 항목에서 Aβ양성aMCI가 유의한 수행 저하를 보였지만 (p<0.001) 그 외 유의한 차이는 관찰되지 않았다. 질적 비교분석에서는 두 aMCI간에 유의 미한 차이는 없었으나, Aβ양성 aMCI에서 AD와 유사한 소견이 일부 항목에서 관찰되었다. 대면이름대기 오류 유형 분석의 경우, 의미적 비연관 오류에 있어 서 AD와 유사한 정도의 비중이 Aβ양성 aMCI에서 확인되었으며, 정상노인, Aβ음성aMCI, Aβ양성aMCI및 알츠하이머 치매로 그 비중이 증가되는 일종의 연속선상의 패턴도 관찰되었다. 의미적 연관오류의 경우엔 알츠하이머 치매로 갈수록 비중이 줄어드는 역(逆)의 패턴으로 관찰되었다. 단서 효과 (cueing effect)에 있어서는 두 군 간에 차이는 없었다. 생성이름대기에서는 특히 동물 과제에서 전환수, 군집수, 평균 군집 크기 모두 정상노인, Aβ 음성aMCI, Aβ 양성aMCI및 알츠하이머 치매 순서로 감소되는 경향을 보였다. 네트워크 기반 연결성 분석에서는 두 aMCI군 사이에 유의한 차이를 보이는 sub-network는 관찰되지 않았다. 하지만 각각을 정상군과 비교 하였을 때 연결성의 유의한 저하를 보인 subnetwork를 보면, Aβ양성 aMCI군 에서는 전반적으로 내측 전두엽 피질영역에 밀집되어 있는 node의 분포를 확인 할 수 있었다. 결론: 본 연구를 통해, 뇌 내 아밀로이드 병리 여부에 따라 aMCI에서의 의미 기억 저하를 질적으로 분석하였을 때, Aβ양성 aMCI와 Aβ음성 aMCI사이에 차이가 있음과, Aβ양성aMCI에서 알츠하이머 치매로 걸쳐지는 일종의 연속선 상의 패턴이 존재함을 확인하였다. 또한 Aβ양성aMCI군을 정상 노인과 비교하 였을 때, 내측 전두엽 피질영역에 node가 밀집되어 이를 중심으로 구조적 연결성이 저하되어 있는 subnetwork를 확인하였다. 내측 전두엽 피질영역은 집행 기능 및 주의집중력 등을 포함한 인지능력을 담당하고, 내정상태회로 (DMN, Default Mode Network)의 일부로서 기능하는 영역이기도 하며 의미처리과정의 인출 기능을 담당하는 부분으로도 알려져 있다. 알츠하이머 치매의 전구단계로 여겨지는 Aβ양성aMCI에서 관찰된 의미기억체계의 기능적, 구조적 소견을 통해, 의미기억 역시 삽화기억과 더불어 뇌 내 아밀로이드 병리 에 대한 조기 반영 지표로서의 역할을 기대해 볼 수 있을 것이다. Objectives: Semantic memory impairment is encountered as common as episodic memory loss in the course of Alzheimer’s disease. While episodic memory impairment is often found in the normal elderly, semantic memory remains fairly stable across the adult life span. Therefore, thorough assessment of semantic memory can be a potential marker for distinguishing pathologic aging from normal senescence. For further understanding of the transitional stage evolving into Alzheimer’s dementia (AD), we focused amnestic mild cognitive impairment (aMCI) stage stratified based on β-amyloid (Aβ) pathology. We hypothesized that (1) Aβ+ aMCI may differ from Aβ- aMCI in terms of qualitative aspects of semantic memory impairment despite similar clinical severity, (2) the disease continuum corroborated by the pattern of semantic memory dysfunction may exist from Aβ+ aMCI to AD and (3) microstructural connectivity based on the concept of ‘network’ may show a difference between Aβ+ aMCI and Aβ- aMCI. Materials and methods: A total of 314 subjects who visited memory clinic of Asan medical center from February 2015 to August 2016 underwent 3 tesla brain MRI, Seoul neuropsychological screening battery (SNSB) and [18F]-florbetaben amyloid PET. Patients with aMCI were dichotomized based on the Aβ status using visual assessments of PET scan. In addition, Aβ- cognitively normal subjects (CN) and Aβ+ AD comprised normal control and disease control, respectively. We focused lexical semantic memory by analyzing the Korean version of the Boston naming test (K-BNT) and controlled oral word association test (COWAT). The frequencies of six error types and accuracy rates after semantic and syllabic cues were evaluated for K-BNT. Number of switching (NS), number of clusters (NC) and mean cluster size (MCS) were measured for qualitative assessments of COWAT. Diffusion tensor imaging (DTI) was conducted to investigate topological changes. To compare structural connectivity between groups, a network-based statistics (NBS) analysis was performed. Results: A total of 217 subjects were included for analysis (normal control; N=53, Aβ- aMCI; N=66, Aβ+ aMCI; N=56, disease control; N=42). Aβ+ aMCI showed a higher frequency of ApoE4 allele (53.5%) than Aβ- aMCI (22.2%)(p=0.002). Quantitative aspects of neuropsychological performance measured by z-score showed no difference between the two aMCI groups except for the visual memory domain. Although there was no statistically significant difference between Aβ+ aMCI and Aβ- aMCI in terms of all qualitative variables, semantically-unrelated error type showed a significantly higher proportion in both Aβ+ aMCI and AD compared to normal control but not in Aβ- aMCI. This suggests that semantic memory disruption may exist in the Aβ+ aMCI, namely, prodromal AD stage. In the similar context, semantically-related error type showed decreasing proportion in the order of normal control, Aβ- aMCI, Aβ+ aMCI and AD. We found NS, NC and MCS also demonstrated decreasing tendency in the same order especially for an animal (living-item) category. There was no significant subnetwork showing difference in terms of edge weights between Aβ+ aMCI and Aβ- aMCI. It was worthy of notice that Aβ+ aMCI showed reduced connectivity mainly in the medial frontal regions, while Aβ- aMCI showed somewhat uniform disruption when compared to CN. Conclusions: In spite of similar clinical manifestations and disease severity, qualitative comparison between the aMCI groups stratified by the brain Aβ status demonstrated that Aβ+ aMCI was more similar to AD than Aβ- aMCI in terms of semantic memory disruption. Reduced structural connectivity in the bilateral medial frontal areas were implicated in Aβ+ aMCI when compared to CN, suggesting the vulnerability of the regional neural network to Aβ pathology. The semantic memory network may be susceptible in the stage of prodromal AD. In this regard, semantic memory may serve as a potential early indicator of brain Aβ pathology along with episodic memory.

      • Object Detection by Matching Data Representation of LiDAR and Camera

        강동완 국민대학교 자동차공학전문대학원 2022 국내박사

        RANK : 2938

        This study proposes a method of achieving object detection and classification performance stability of the recognition system of autonomous vehicles through a DNN, deep learning, and sensor fusion. The recognition system in autonomous driving consists of environment RADAR, Camera, LiDAR, and an ultrasonic sensor. Sensor fusion can overcome the limitations of the sensors while reducing uncertainty. Fusion between the same types of sensors is generally used to secure data by expanding the measurement area of the sensor. Convergence between the same types is possible because the characteristics of the data are the same. Sensor fusion between different types requires the fusion of data of different characteristics to determine the connection point between them. For a camera and LiDAR, the three-dimensional data of LiDAR are fused to the two-dimensional camera data. Because sensor data are of different dimensions, ambiguity and errors in the fusion results are generated. Research is required to solve this problem of fusion that occurs due to dimension reduction in the fusion between different types of sensors. This study constructed a system with an independent late fusion method with sensor detection results to solve the above-mentioned problem. A method of object fusion through dimension matching using semantic segmentation information of a camera and LiDAR was developed. The camera system consists of two networks. A network for estimating depth was used for Pseudo-LiDAR. This study used the stereo method. Pseudo-LiDAR was implemented using the estimated depth and extrinsic parameters, which can be determined through the correlation of LiDAR with respect to a camera. Object classification of a camera can be distinguished into object detection and semantic segmentation. In this study, objects were classified using DeepLabV3+, which is a semantic segmentation network. Three-dimensional object detection and classification information are provided through the two networks. A system based on LiDAR uses a single network for object detection and classification. A DeepLabV3+ network from a previous study was modified to be appropriate for LiDAR data to be used in this study. The system provides object detection and classification data for LiDAR data. From the inference results of semantic segmentation of LiDAR and depth from images obtained using a camera, instance segmentation was inferred to access instances of objects for which a method to demarcate objects’boundaries is proposed. The sensor fusion method uses a late fusion method that fuses independent results of each system. The sensors are fused by comparing the area of the detected object through a Bird's Eye view representation. This paper proposes a method of integrating data collected from sensors with different dimensions, and the system was verified using the KITTI dataset, which is an open dataset. 본 논문에서는 DNN, Deep Learning과 센서 융합을 통한 자율주행 자동차의 인지 시스템의 객체 검출 및 분류 성능 안정성 확보를 위한 방법을 제안한다. 자율주행에서 인지 시스템은 Radio RADAR, Camera, LiDAR, UltraSonic 같은 환경인지 센서로 구성된다. 센서 융합은 각 센서들의 한계를 극복하고 센서의 불확실성을 줄일 수 있다. 센서의 융합은 동종 간의 융합과 이종 간의 융합으로 볼 수 있다. 동종간의 센서 융합은 일반적으로 센서의 측정 영역을 확대하여 데이터를 확보하기 위해 사용된다. 같은 종류간의 융합은 데이터의 특성이 같음으로 직관적인 융합이 가능하다. 다른 종류간의 센서 융합은 다른 특성의 데이터의 융합으로 센서간의 연결점을 찾아야 한다. 일반적인 다른 종류간의 센서 융합은 좌표계 통일을 통해 데이터를 융합한다. Camera와 LiDAR의 경우 LiDAR의 3차원의 데이터를 2차원의 Camera 데이터로 차원을 낮추어 융합한다. 차원이 다른 센서 데이터로 인해 융합 결과에 대한 모호성과 오차를 발생시킨다. 다른 종류간의 센서 융합에서 차원의 축소로 발생하는 융합의 문제점을 해결하기 위한 연구가 필요로 하다. 본 논문의 시스템은 위 언급한 문제점을 해결하기 위해서 센서의 검출 결과가 독립적인 Late Fusion 방법으로 시스템을 구성하고 Camera와 LiDAR의 Semantic Segmentation 정보를 사용한 차원 일치를 통한 객체 융합 방법을 제안한다. 논문은 세부적으로 Camera를 통한 Pseudo LiDAR 와 객체 검출 및 분류 시스템 , LiDAR를 통한 객체 검출 및 분류 시스템, 데이터 융합시스템으로 구성되어 있다. Camera를 이용한 시스템의 경우 두 개의 Network로 구성되어 있다. Pseudo LiDAR를 위해 Depth를 추종하는 Network를 이용하였다. 논문에서는 Stereo 방식을 사용하였다. 추종한 Depth와 Extrinsic Parameters를 이용하여 Pseudo LiDAR를 구현하였다. Extrinsic Parameters는 Camera를 기준으로 LiDAR의 상관관계를 통해 알 수 있다. Camera의 객체 분류는 Object Detection과 Semantic Segmentation으로 나눌 수 있다. 논문에서는 Semantic Segmentation Network인 DeepLabV3+를 사용하여 객체를 분류하였다. 두 Network를 통해 3차원의 객체 검출 및 분류 정보를 시스템에 제공한다. LiDAR를 이용한 시스템의 경우 단일 Network를 이용한 객체를 검출 및 분류를 진행한다. 사용된 Network는 이전 연구인 DeepLabV3+를 LiDAR 데이터에 맞춰 수정한 Network를 사용하였다. 시스템은 LiDAR 데이터의 객체 검출 및 분류 데이터를 시스템에 제공한다. 센서를 융합하는 방법은 각 시스템의 독립적인 결과를 융합하는 Late Fusion 방식을 사용한다. Bird’s Eye view 표현을 통해 검출된 객체의 영역을 비교하여 센서를 융합한다. 높은 수준의 환경이해를 위해 LiDAR와 Camera의 Depth 정보와 Semantic Segmentation 정보를 활용하여 객체의 경계를 구별하고 Instance Segmentation을 추론하는 방법을 제안하였다. 본 논문에서는 차원이 다른 센서를 같은 차원에서 데이터를 융합하는 방법을 제안하고 OpenDataSet인 KittiDataSet을 이용하여 시스템을 검증한다.

      • Towards Image Semantic Segmentation and Classification using Bracket-style Convolutional Neural Network and Its Variants

        HUA CAM HAO 경희대학교 대학원 2022 국내박사

        RANK : 2926

        Nowadays, thanks to the exponential advancements of computational resources along with the massive surge of image quantity and quality, deep learning technique, a special branch of Artificial Intelligence, achieves extraordinary performance in various computer vision tasks comprising image classification and semantic segmentation. Besides that, in the current era of Industry 4.0, vision-oriented applications become vastly significant in everyday life, smart healthcare, and industrial manufacture, to name a few. Accordingly, in the literature, there emerges tremendous researches that introduce deep learning architecture in form of convolutional neural network (CNN) for tackling the problem of understanding image semantically for the above-mentioned software products. However, since there are still limitations in the related works of semantic image segmentation and image classification in several specialized domains, this thesis presents a Bracket-style CNN and its variants to tackle the existing issues, respectively. Firstly, regarding the problem of semantic image segmentation, which is equivalent to image's pixel-level classification, the key mechanism in a predefined deep learning model is to be capable of coordinating globally contextual information with locally fine details in the input image for generating optimal segmentation map. But nonetheless, existing work did not exhaustively exploit middle-level features in the CNN, which carry reasonable balance between fine-grained and semantic information, to boost the effectiveness of the above-mentioned procedure. Hence, a Bracket-shaped CNN is proposed to leverage the exploitation of middle-level feature maps in a tournament by exhaustively pairing adjacent ones through attention embedded combination modules. Such routine repeats round-by-round until the prediction map of densely enriched semantic contexts is finalized. It is worth noting that the approach of combining two neighboring feature maps having different resolutions is defined by adopting a cross-attentional fusion mechanism, namely CAF module. The major objective is to properly fusion semantically rich information (of the lower-resolution inputs) with finely patterned features (of the higher-resolution versions) for the outputs. As a consequence, the proposed semantic segmentation model is trained and evaluated on three well-known datasets, from which competitive performance in terms of mean Intersection of Union (compared to novel methods in the literature) is attained as follows: PASCAL VOC 2012 [20] (83.6%), CamVid [9] (76.4%) and Cityscapes [18] (78.3%) datasets. Furthermore, the proposed architecture is shown to be flexibly manipulated by round-wise features aggregation to perform the per-pixel labeling task efficiently on dataset with heavily class-imbalancing issue such as DRIVE [80], which aims at retinal blood vessel segmentation, in comparison with the state-of-the-arts. Particularly, Sensitivity, Specificity, Accuracy, and Area Under the Receiver Operating Characteristics achieve 79.32%, 97.41%, 95.11%, and 97.32%, respectively. Secondly, the proposed Bracket-style concept in this thesis can be extended as variants for effectively classifying image in specialized domains such as Diabetic Retinopathy (DR) grading and facial expression recognition (FER). Concretely, in such kind of deep learning model, channel-wise attentional features of semantically-rich (high-level) information are integrated into finely-patterned (low-level) details in a feedback-like manner, a.k.a. single-mode Bracket-structured network (sCAB-Net). Accordingly, feature maps of different scales can be amalgamated for extensively involving spatially-rich representations to the final predictions. From the evaluation process, impressive benchmark results on the aforementioned areas, wherein spatially-rich factors play an important role to the decision of image label, are achieved. On the one hand, with respect to DR recognition, the proposed architecture reaches a remarkable quadratic weighted kappa of 85.6% on Kaggle DR Detection dataset [47]. On the other hand, about FER, it gains a mean class accuracy of 79.3% on RAF-DB dataset [58]. In overall, the above-mentioned operational characteristics and experimental achievements demonstrate a promising capability of the proposed Bracket-style network toward complete image understanding (by either semantic segmentation (pixel-level labeling) or classification (image-level labeling) performance) for further practical computer perception-based applications.

      • A semantic network analysis as a method for understanding qualitative user experience in product interactions

        이예림 서울대학교 대학원 2017 국내박사

        RANK : 2926

        Qualitative research provides useful insights with which to analyze the User Experience (UX). This is distinguished from quantitative research by its inductive form of logic and the research aim of understanding holistic phenomena. Since qualitative research aims to identify intangible factors and explore phenomena without simplifying contextual information, it is difficult to exclude a researcher’s subjectivity during their analysis. In addition, interpreting and analyzing qualitative materials requires much time and effort. Therefore, this dissertation suggests a systematic research method that utilizes user expression data to understand UX. The research starts by transforming textual data into numerical representations using semantic network analysis; three major issues were elucidated from the limitations of existing methods: (1) examining the representativeness of the sample size, (2) eliciting important user values (UV), and (3) evaluating product attributes (PA) with numerical inferences. First, the representativeness of sample size was examined by observing the stability of a semantic network. Among the semantic networks generated from the text, subnetworks were sampled from the original network to vary the sample size. Then, similarities between subnetworks and the original were calculated by applying correlation analysis to node-level centralities. Three case studies that were composed of two interview datasets and one online review data were presented; these proved that this method could be applicable for both small and large samples. Second, a mixed-method research approach was introduced to suggest appropriate camera shutter press sounds. In qualitative research, important UVs were elicited by analyzing terms with high centralities in a semantic network. The elicited UVs were then used as questionnaire items in quantitative research to represent UV with numerical values. The result demonstrated user satisfaction models for shutter press sounds and the relationships between UV and PA by adopting the concept of psychoacoustic variables. Third, the importance of UV and their relations to PA were examined based on qualitative research on vacuum cleaners. Seven types of network centrality were used to weight the UVs, which resulted in UX quantification models. These models’ goodness-of-fit were compared to the results of quantitative research. Then, the links between UV and PA nodes were identified. Since statistical analysis without a proper theoretical interpretation may mislead users, qualitative data can assist quantitative research by examining the sematic associations between UV and PA. Compared to traditional qualitative studies, the proposed method in this dissertation has a competitive edge for reducing the cost, effort, and subjectivity. Determining the smallest sample size that can achieve network stability is a novel data collection strategy that attempts to maximize effectiveness while minimizing both cost and effort. Utilizing this method allows UX researchers and practitioners to collect the optimal sample size by gradually increasing their sample sizes. Important UVs were elicited in the process of evaluating UX, and their importance was quantified to build a UX quantification model. Transferring qualitative descriptions to the quantitative models allows researchers to understand UX more efficiently by reducing the process of collecting numerical data on each UV. Lastly, important PA and their relations to UV were identified. Although centrality measures were not proportional to the correlation level, semantic associations between UV and PA could be identified. Considering that huge amounts of text data are being generated and collected every day, the suggested method is expected to be useful for practical applications when developing products.

      • Compound attention semantic segmentation network for high-resolution remote sensing image

        Shen, Canying Sungkyunkwan University 2023 국내석사

        RANK : 2925

        With the rapid developments that have been made in computer vision and remote sensing technology, leading to increased usage and analysis of very high-resolution remote sensing images. Very high-resolution remote sensing images provide rich and detailed information, with high spatial resolution, timeliness, and abundant data, allowing for clear and intuitive representation of features and their connections. Despite advances in technology, obtaining geographic information from high-resolution remote sensing photos sometimes involves laborious manual work. Therefore, deep learning technology emerged as the times require, and semantic segmentation has become an important research goal for rapid analysis of satellite images. However, limitations such as shadow issues and atmospheric obscuration pose difficulties for accurate semantic segmentation. Moreover, while many high-resolution datasets exist for buildings and land objects, there is a scarcity of dedicated datasets for water-land area segmentation. This research focused on semantic segmentation algorithms for high-resolution remote sensing images using Deep Convolutional Neural Networks (DCNNs) and designed a more efficient network called Compound Boundary Attention Network (CBANet), based on Convolutional Neural Networks (CNNs) and Fully Convolutional Neural Networks, to improve the accuracy of pixels at boundaries in high-resolution remote sensing images. The study also introduced a dataset specifically focused on water-land area segmentation named Water Land Dataset. The segmentation performance is verified through experiments implemented on the ISPRS Vaihingen 2D semantic segmentation dataset and the Water Land Dataset which is proposed in this research. The results demonstrate that, compared with other lightweight semantic segmentation models, the proposed network has significant effectiveness and demonstrate superiority with less training data. 컴퓨터 비전과 원격탐사 기술의 급속한 발전으로 고해상도 위성 이미지의 사용과 분석이 증가하였다. 고해상도 원격탐사 이미지는 높은 공간 해상도, 적시성 및 풍부한 데이터와 함께 풍부하고 상세한 정보를 제공하여 특징과 연결을 명확하고 직관적으로 표현할 수 있다. 기술의 발전에도 불구하고, 고해상도 원격 감지 사진에서 지리 정보를 얻는 것은 때때로 힘든 수작업을 진행한다. 따라서 시대의 요구에 따라 딥 러닝 기술이 등장했고, 의미적 분할은 위성 이미지의 신속한 분석을 위한 중요한 연구 목표가 되었다. 그러나 그림자 문제 및 대기의 영향등 같은 문제는 정확한 의미적 분할에 어려움을 만든다. 게다가, 건물과 토지 객체에 대한 많은 고해상도 데이터 세트가 존재하지만, 수상 토지 영역 세분화를 위한 전용 데이터 세트가 부족한다. 이 연구는 Deep Convolutional Neural Networks (DCNNs)를 사용하는 고해상도 원격탐사 이미지를 위한 의미 분할 알고리듬에 초점을 맞추고 Convolutional Neural Networks (CNN)과 Fully Convolutional Neural Networks을 기반으로 하는 Compound Boundary Attention Network (CBANet)라는 효율적인 네트워크를 설계했다. 이 네트워크는 고해상도 원격 감지 이미지에서 경계의 정확한 분할을 달성한다. 이 연구는 또한 Water Land Dataset 라는 수역과 육지 영역 세분화에 특별히 초점을 맞춘 데이터 세트를 제시하였다. 본 연구에서 제출한 네트워크의 의미적 분할 성능은 ISPRS Vaihingen 2D Semantic Segmentation Dataset 와 Water Land Dataset에 대해 수행된 실험을 통해 검증된다. 다른 경량 의미적 분할 모델과 비교하여, 제안된 네트워크 모델은고해상도 원격 감지 이미지를 높은 분할 정확도로 달성한다. 훈련데이터가 적은 상황에서도 우월성을 드려낸다.

      • A semantic relatedness measure based on co-occurrence networks : 공기 네트웍과 그래프 커널에 의한 의미 연관성 척도

        노태길 경북대학교 대학원 2011 국내박사

        RANK : 2910

        단어나 문구의 의미적 관련성을 수치적으로 연산하는 것은 기계 학습이나 정보 추출을 포함한 다양한 자연언어처리 기술의 근간이 되는 기반 기술이다. 이 논문은 공기 네트웍에 기반한 새로운 의미 연관성 척도를 제안한다. 코퍼스에서 관측되는 공기 관계는 네트웍으로 표현될 수 있다. 이 공기 관계의 네트웍을 본 연구에서는 기본적인 의미 표현 형태로 삼는다. 공기 벡터 대신 공기 네트웍을 기본적인 의미 표현으로 삼기 위해서는 두 가지 주요한 이슈를 해결해야 한다. 첫번째는 하나 이상의 단어로 이루어진 문구의 의미 표현이다. 벡터는 잘 정의된 벡터 합 연산이 존재해서, 단어 벡터의 합으로부터 벡터 중앙(centroid)을 구할 수가 있다. 따라서 문구를 위한 벡터 표현은 단어의 벡터 표현을 합함으로서 구할 수 있다. 본 연구에서는 네트웍의 합집합 연산과 교집합 연산을 정의하여 네트웍을 처리한다. 이들을 통해 네트웍은 벡터처럼 합하거나 뺌으로서 구의 표현으로 쓰일 수 있다. 두번째 이슈는 네트웍을 위한 비교 연산이다. 벡터는 잘 정의된 거리 연산과 유사도 연산이 존재하기 때문에 벡터의 형태로 표현된 공기 정보는 쉽게 거리나 유사도를 계산할 수 있다. 네트웍의 경우에도 벡터처럼 수학적으로 타당한 원칙적인 비교 척도가 필요하다. 본 연구에서는 그래프 커널을 도입함으로서 네트웍을 비교한다. 그래프 커널은, 두 네트웍이 공유하고 있는 서브구조를 비교함으로서 주어진 네트웍에 대해 높은 차원의 공간에서 연산한 내적(inner product) 값을 돌려준다. 본 연구에서는 이 내적값을 표준화 한 값을 공기 네트웍을 위한 기본적인 비교 연산으로 사용한다. 본 논문은 세 가지 자연어 처리 응용을 통해 제안한 의미 척도를 평가하고 있다. 동의어 찾기, 단어 모호성 해소 및 태그 번역이 그 세가지 응용 분야이다. 제안된 척도는 이 세 가지 응용에서 공기 벡터 기반의 방법에 대해 꾸준히 더 좋은 성능을 보였으며, 그 결과는 학계에 알려진 최고 수준의 시스템들과 비교할 만한 성능이었다. 제안된 척도는 이들 응용 뿐 아니라 단어나 문맥의 의미를 비교해야 하는 어떤 응용에도 사용될 수 있으며, 이 척도는 또한 워드넷(WordNet)같은 외부 리소스에 의존하고 있지 않다. 보통의 레이블 되지 않은 코퍼스 만으로 학습이 가능하기에, 워드넷 같은 상세한 언어 리소스가 부재한 한국어 등의 언어에서도 쉽게 적용될 수 있는 방법이다.

      • Robust deep learning algorithms for weakly supervised object detection and semantic video segmentation

        Awan, Mehwish Sungkyunkwan University 2022 국내박사

        RANK : 2908

        Object detection is a computer vision technique that is concerned with the recognition and localization of objects in an image or video. The primary applications of object detection include; self-driving cars, video surveillance, face detection, anomaly detection, tracking objects, and crowd counting, etc. Supervised object detection models require fully annotated data for training the network. However, labeling large datasets is a very time-consuming task, therefore, weakly supervised object detection (WSOD) is a substitute approach to fully supervised learning for the object detection task. Major problems with existing WSOD methods are partial object detection and false detection in an objects cluster with the same category. To address these issues, we propose end-to-end framework for WSOD based on discriminative feature learning and a three-fold refinement strategy to proposals to learn complete instances. We generate class-specific localization maps by fused class activation maps obtained from fused complementary classification networks. These localization maps are used to amend the detected proposals from the instance classification branch (detection network). Deep reinforcement learning networks are proposed to learn decisive-agent and rectifying-agent based on policy gradient algorithm to further refine the proposals. The refined bounding boxes are then fed to instance classification network. The refinement operations result in learning complete objects and greatly improve detection performance. Experimental results show better detection performance by the proposed WSOD methods compared to the state-of-the-art methods on PASCAL VOC2007 and VOC2012 benchmarks. This dissertation addresses another major task of computer vision i.e., semantic video segmentation (SVS). SVS is the procedure of classifying each pixel in a video frame belonging to a specific class. The key applications of SVS are mainly identical to object detection, however, with more precision also including object boundaries. The per-frame segmentation methods have a high computational cost, thereby, these methods are insufficient to cope with the fast inference need of semantic video segmentation. To efficaciously reuse the extracted features by feature propagation this dissertation presents distortion-aware feature rectification and online selection of keyframes for fast and accurate video segmentation. The proposed dynamic keyframe scheduling scheme is based on the extent of temporal variations using reinforcement learning. We employ policy gradient reinforcement strategy to learn policy function for maximizing the expected reward. Weakly supervised multi-class video segmentation is one of the most challenging yet least studied research problems in computer vision. This study aims to learn object patterns in complex scenes specifically for videos under weak supervision. Associating image tags to visual appearance is not a straightforward learning task, especially for complex scenes. Therefore, we present manifold augmentations to obtain reliable pixel labels from image tags. We propose a framework comprised of two key modules: a temporal split module for efficient video processing and a pseudo per-pixel seed generation module for precise pixel-level supervision. We evaluate our SVS schemes on the Cityscapes and CamVid datasets with DeepLabv3 as segmentation network and LiteFlowNet for computing flow fields. Experimental results show that the proposed methods outperform the previous state-of-the-art methods significantly both in terms of accuracy and throughput.

      • Improved Skeleton and Semantic Based Human Action Recognition

        후택원 동명대학교 대학원 2021 국내박사

        RANK : 2908

        With the development of information technology (IT), the technology of automatically identifying and analyzing human actions in videos has quickly become a research hotspot in the field of computer vision. Computer prospective research based on databases such as images, videos, and sleds is developing rapidly, and has high application value in the fields of free walking, gesture recognition, intelligent surveillance, and human-robot interaction. In traditional behavior recognition methods, features need to be extracted manually, and the recognition effect of features depends to a large extent on the experience of the feature designer. Moreover, most of the existing action recognition methods usually mainly rely on high-level semantic information from CNN, but not so detailed information, and will ignore the differences of different information streams. At the same time, it usually does not consider long-distance gathering and short-distance movement at the same time. And because of the influence of factors such as illumination, occlusion and background color mixing, it will affect the effect of action recognition. Therefore, this paper takes human behavior recognition as the research goal, and proposes two methods and models of CNN-based semantic and skeleton behavior recognition around deep learning. Skeleton-based human action recognition part: We proposed a Dual Attention-Guided multiscale dynamic aggregate Graph Convolutional Network (DAG-GCN) for bone-based human action recognition. Our goal is to explore the best associations and determine high-level semantic features. First, we use of multi-scale dynamic aggregation of GCN modules. Secondly, the high-level semantic features are further improved, and the semantic relevance is characterized by the dual attention guidance module. Thus, we use the relationship of joints hierarchically through two modules which include time-space correlation. The experiments conducted using the DAG-GCN method have good performance on the NTU-60-RGB + D and NTU-120-RGB + D data sets. Semantic-based human action recognition part: We propose a Hierarchical Excitation Aggregation and Disentanglement network (Hi-EAD), which includes multi-frame excitation aggregation (MFEA) and feature squeezing and excitation hierarchical disentanglement (SEHD) modules. MFEA is specifically used to model long and short distance motions and calculate the time difference of feature levels. For the squeezing and excitation hierarchical unwrapping module (SEHD), these differences are used to optimize the weight of each spatio-temporal feature and excite motion-sensitive channels. At the same time, without introducing other parameters, this feature information will be processed through a series of squeezing and excitation, and multiple time aggregations with neighborhoods can enhance the interaction of different motion frames. A large number of experimental results prove the effectiveness of our proposed Hi-EADN method on UCF101 and HMDB51 benchmark data sets. 최근 들어, 정보기술(IT) 발달에 따라 비디오 속 인간행동을 자동으로 인식하고 분석하는 기술은 컴퓨터 비전 분야에서 연구 핫스팟으로 빠르게 자리 매김 한고 있다. 이미지, 비디오, 스켈레톤과 같은 데이터베이스를 기반으로 한 컴퓨터 비전 연구가 빠르게 발전했으며, 자유주핸, 제스처인식, 지능감시 및 인간-로봇 상호작용 분야에서 활용가치가 높다. 전통적인 행동인식 방법에서는 수동으로 특징을 추출할 필요가 있으며, 특징인식 효과는 특징 디자이너의 경험에 크게 좌우된다. 또한, 기존의 행동인식 방법은 대개 (CNN)의 고급 의미(Semantic) 정보에 주로 의존하지만 상세한 정보는 아니며 정보 스트림의 차이점을 무시하는 경우가 많다. 그리고 장거리 집결과 단거리 이동을 동시에 고려하지 않는다. 뿐만 아니라 조명, 차단물, 베경 색혼합과 같은 요인으로 인해, 행동인식의 효과를 떨어뜨린다. 본 연구에서는 인간 행동인식을 연구 목적으로 하며, 딥 러닝을 중심으로 CNN 기반 스켈레톤 및 의미(Semantic) 기반 행동인식 방법과 모델을 제시하였다. 스켈레톤 기반 행동인식 부분: 본 연구에서는 주의력 기반 다척도 동적 중합도 권적 신경망(Dual Attention Guided-Graph Convolutional Networks)을 제시하였다. 연구목적은 최상의 연관성을 탐색하고 고급 의미(Semantic)의 특징을 결정하는 것이다. 첫째, 다척도 동적 중합GCN 모듈을 사용하였다. 둘째, 고급 의미(Semantic)의 특징을 개선하였으며, 이중 주의 유도 모듈를 통해 의미의 상관성을 유도하였다. 따라서 본 연구에서는 두 모듈을 통해 관절의 관계를 계층적으로 사용하였고 시공간 상관관계도 사용하였다. DAG-GCN 방법으로 실시한 실험은 NTU-60-RGB+D와 NTU-120-RGB+D 데이터베이스에서 우수한 성능을 보였다. 의미(Semantic) 기반 행동인식 부분: 본 연구에서는 다프레임 인센티브 중합(Multiple Frames Excitation Aggregation), 특징 압착과 인센티브 분리 (Squeeze-and-Excitation Hierarchical Disentanglement) 모듈을 포함한 계층적 인센티브과 통합 네트워크(Hierarchical Excitation Aggregation and Disentanglement)를 제시하였다. (MFEA)는 장단거리 모션을 모델링하며, 특징 단계별 시간 차이를 계산하는 데 사용된다. 압출 및 인센티브 등급 해제 모듈(SEHD)에 대해, 이러한 차이를 사용하여 각 시공간 기능의 가중치를 최적화하고 동작에 민감한 채널을 자극시키는 데 사용된다. 동시에, 다른 매개 변수를 도입하지 않고, 일련의 압출과 인센티브를 통해 이러한 특징정보를 처리할 수 있으며, 지역의 여러 시간 집합을 통해 서로 다른 모션 프레임의 상호 작용을 향상시킬 수 있다. 많은 실험 결과는 UCF101 및 HMDB51 데이터베이스에서 제안된 Hi-EAD 방법의 효과를 입증하였다.

      • 객체 추적을위한 공간적으로 시맨틱 상관 관계 기능이있는 샴 네트워크

        THIERRY NTWARI 중앙대학교 첨단영상대학원 2020 국내석사

        RANK : 2908

        Visual Object Tracking은 연속 비디오 프레임에서 대상 객체를 연결하는 것을 목표 로 한다 . 인간과 컴퓨터의 상호 작용 , 보안 및 감시 , 비디오 통신 및 압축과 같은 다 양한 용도로 사용된다 . 이와 관련하여 사용된 지난 10년 동안의 최첨단 방법은 correlation filter에 기초하였지만 기초하였지만 , 이번 10년 동안 연구자들은 깊은 Siamese network에 집중하기 위해 주의를 다른 곳으로 옮겼다 . Siamese network만 해도 최첨단 correlation filter 추적기만큼 추적기만큼 높은 정확도를 갖고 있지 않다는 연구결과가 나왔다 . 반편에 , 상관 필터 추적기만으로는 프레임 업데이트 문제가 있다 . 본 연구에서는 정확하고 강력한 객체 추적을 위해 Siamese network과 correlation filter 추적 기, 즉 공간적 의미상관 기능 (SNS-CF)을 갖춘 Siamese network를 융합한 것을 제시한다 . 입력 이미지 프레임의 여러 영역에 분산된 다양한 유형의 기능을 처리하기 위해 제안된 SNS-CF 방식은 3가지 부분으로 구성된다 . 샴 피처 추출 기, 공간적으로 의 미 론 적 특징 추출 기, 그리고 적응형 상관 관계 필터 . 저작자 지식의 최선으로 , 제 안된 SNS-CF 방식은 지금까지 지금까지 Siamese network와 correlation filter 추적기를 추적기를 융합 하여 높은 프레임 속도 , 실시간 시각적 객체 추적 및 복수의 벤치마크에서 최신 방 법에 유리한 추적 성능을 제공한다 . Visual object tracking aims at associating target objects in consecutive video frames. It finds a variety of uses, for instance human-computer interaction, security and surveillance, video communication and compression, to name a few. Last decade’s state-of-the-art methods used in this regard were based on correlation filters, however, this decade researchers shifted away the attention to focus on deep Siamese networks. On the one hand, research show that Siamese network alone does not have as high accuracy as state-of-the-art correlation filter trackers. On the other hand, correlation filter trackers alone have a frame update problem. In this research, we present a fusion of both Siamese network and correlation filter trackers, to overcome the above accuracy and frame update problems, namely Siamese network with spatially semantic correlation features (SNS-CF) for accurate, robust object tracking. To deal with various types of features spread in many regions of the input image frame, the proposed SNS-CF method consists of three parts, first, a Siamese feature extractor, second, a spatially semantic feature extractor, and last but not least, an adaptive correlation filter. To the best of authors knowledge, the proposed SNS-CF method is the first attempt, by now, to fuse the Siamese network and the correlation filter trackers to provide high frame rate, real-time visual object tracking with a favorable tracking performance to the state-of-the-art methods in multiple benchmarks.

      연관 검색어 추천

      이 검색어로 많이 본 자료

      활용도 높은 자료

      해외이동버튼