第45回知能システムシンポジウム 発表論文リスト

2018年3月7日(水)


    10:15-11:55/A室/データ分析


  1. A1-1 : 大学における学生データの機械学習を用いた分析による修学・教育支援方式の検討:Keisuke Abe
    Abstract: 情報化の進展により得られる大量のデータの有効利用が重要な問題となっているが、大学においても学内データを収集・分析することにより、経営改善や学生支援、教育の質向上等に役立てようという意識が高まっている。そこで本研究では大学におけるこのような学内データ活用の概要についてまとめ、その中でも特に多くの大学で重要となっている、留年・退学者の防止について検討する。学生の成績や出席状況等の教務データを分析し、機械学習の手法を適用するすることにより留年や退学を予防する修学支援方式について検討する。また履修科目間の相関等も分析することによる教育支援についても検討する。

  2. A1-2 : 特許調査における単語群からの文書特徴表現を用いたFターム推定方式:奈良 清仁, 秋吉 政徳, 吉新 喜市, 築山 誠
    Abstract: 本研究では、特許調査における単語群からの文書特徴表現を用いたFターム推定方式について述べる。特許検索は一般のWeb検索や文献検索とは大きく異なり、高度な技術的専門用語や技術を説明するためのフレーズの多様性、推定すべきFタームが複数あるという特徴がある。そのため、キーワードによる「テキスト検索」では「ノイズ」と呼ばれる無関係の特許が多数含まれてしまう。一方、Fタームを用いた「インデックス検索」は高精度な検索が可能であるが、適切なFタームの選定が必要であるため、事前にFタームを推定することは重要な作業である。そこで本研究では、特許文書に含まれる単語群から導かれた「単語の分散表現」を用いたFターム推定手法を提案する。

  3. A1-3 : データ中に混在する関係の発見のための潜在変数モデルを利用したクラスタリング手法:高椋 貴大, 村田 純一, 船木 亮平
    Abstract: データ中に異なる関係が複数存在する場合,それを発見する手法は存在するが,この手法は変数のデータに不足がないことが前提となっていた.本研究では,低次元潜在変数空間をデータ空間に写像し,データ空間中の局所的確率分布を推定することにより,データを近似表現するGenerative Topographic Mapping(GTM)を活用し,変数が一部不足している場合でも複数の関係を発見するためのクラスタリング手法を提案する.具体的には,GTMの潜在変数グリッド点と基底関数の中心の配置を変更し,潜在変数空間内の距離と,推定されるデータ空間中の確率分布を利用して,複数の関係を推定する.さらに,これらだけでは複数の関係を発見できない場合もあるため,この問題を解消する方法も提案する.

  4. A1-4 : ファジーアソシエーション分析に基づく文書分類のための自動的クエリ拡張:Tsubasa Yasunaga, Masaya Nakata, Tomoki Hamagami
    Abstract: 一般的な文書分類手法では訓練データに比べて単語数が少ない文書を分類するのは難しい。これまでの研究成果として,分類対象文書に対して単語の重要度に基づくラベル推定を行い,そのラベルを持つ文書群における関連性をアソシエーション分析に基づいて計算し,関連性が高い単語を追加することで分類性能は改善した。本研究ではファジーアソシエーション分析を導入することで,より適切な関連性を計算することを目的とする。実験では,提案手法によって分類性能は改善し,追加される単語数が減少した。すなわち,ファジーアソシエーション分析によって文書分類に有用な単語をより選択的に追加できることが明らかとなった。

    10:15-11:55/B室/運転・安全(1)


  1. B1-1 : 自動車内における運転者の案内要求タイミング推定のための特徴設計と分析:山部 和章, 須賀 千紘, 翠 輝久, 武田 龍, 駒谷 和範
    Abstract: 自動車内において運転者の注意を散逸させない情報提示システムは,安全な交通社会の実現に不可欠である.そのような情報提示手法としてAR案内や音声案内があるが,これらも高頻度で出続けるとかえって注意をそらす場合があるため,運転者が必要とするタイミングで提示する必要がある.本研究では,案内を必要とするタイミングを運転者や周囲の交通状況等から推定するため,それらの状況を定量的に表す特徴量を設計した.さらに,案内が必要な状況を推定するために有効な特徴を分析した.結果,案内要求タイミングを推定するためには,自車の進行状況のほかに運転者の視線情報が有効であるということが分かった.

  2. B1-2 : 重心移動回数とドライバの低覚醒状態の相互関係の分析:清田 昇吾, 伊藤 誠
    Abstract: 日本国内の交通事故の原因の中で,漫然運転が最も多く起きている.その漫然運転をもたらす要因の一つに居眠り運転につながるドライバの覚醒度低下がある.そのため,ドライバの覚醒度低下を検出する技術の開発と実用化が重要となっている.本研究ではドライバの覚醒度の度合いを眠気レベル1~5の5段階で表し,眠気レベル2~3を比較的眠気の浅い状態と定義して,背面・座面体動回数を用いた比較的眠気が浅い状態を検出する手法を新たに提案した.ドライビングシミュレータを用いて実験を行い,提案手法の有効性を検証した.その結果,背面・座面体動回数を用いた提案手法による比較的眠気が浅い状態の検出について有効性を示すことができた.

  3. B1-3 : あいまいな情報提示による危険予測運転行動への効果:飯柴 佑太, 田中 健次
    Abstract: ドライバに危険が迫っている場面において,危険対象の方向を具体的に提示することで注意を対象に引きつけることは,安全行動を促すために有用であろう.しかし,ドライバの注意が一点に集中することにより,他領域への注意が疎かになる可能性が考えられる.本研究の目的は,ドライバへの提示情報にあいまいさを含めることで対象を特定化することなく,より広い範囲の対象に注意を向けさせ,同時に発生する複数事象に対するドライバの危険予測を向上させる効果を明らかにすることである.あいまい表示がリスク意識に与える影響を明らかにするスライド提示実験と,あいまい表示が運転行動に与える影響を明らかにするドライビングシミュレータ実験を行った結果,あいまい情報の提示により複数の危険事象への反応時間が短く,ドライバの危険予測行動を促す可能性が示された.

  4. B1-4 : 視野障害が運転能力にもたらす影響に関する研究:Shuyang Liu, 伊藤 誠
    Abstract: 緑内障のような視野障害条件下で,ドライバのアクセルとブレーキの遅れや,事故の発生件数が有意に高いと報告されている.しかし,交通が不便な地域では,緑内障などの視野障害を持っていても,自身での運転が不可欠な患者が多い.人が運転する際に得る情報の9割が視覚から得ているため,視野障害が運転にどのような影響をもたらすかを精確に明らかにすることが一つの課題である.しかし,視野障害を有する患者を対象とした実験・調査だけでは,十分な量と質のデータを確保できることは限らない.そこで,本研究では,視野障害が運転にもたらす影響を研究するため,視野が健常な人でも,視野障害の影響を体験しながら運転ができるように,視野障害の運転状況を模擬するシステムを提案した.また,提案されたシステムを評価するため,視野障害のサンプルをシステムに導入し,自作のドライビングシミュレータを用いて,実験により評価した.その結果,スビートを落とすなどの回避操作があっても,視野障害状況下のドライバの行動は正常視野よりタイミングが遅い傾向となり,事故発生率も高くなった.この結果は,既往研究の結論と同じような傾向であることから,提案システムの有効性が確認できたといえる.さらに,実験ビデオを分析したところ,自覚がある視野狭窄状況下のドライバの頭部運動は,正常視野のドライバより頻度が高いことも明らかになった.

    10:15-11:55/C室/機械学習/最適化(1)


  1. C1-1 : 特徴選択と2段の外れ値検出手法による転がり軸受の欠陥検出精度向上方法の提案:北井 正嗣, 赤松 良信, 福井 健一
    Abstract: 転がり軸受の劣化状態を正確に推定することは,機械の保全において重要な課題である.本論文では,外輪軌道面に複数サイズの人工欠陥を設けた転がり軸受を対象とし,実験装置で運転した際に得られた振動加速度に対し,各種外れ値検出手法による欠陥検出精度を比較した.次に分類手法により各人工欠陥サイズに寄与度の高い特徴量を選別し,特徴選択が人工欠陥サイズ毎の欠陥検出精度に与える影響について考察した.最後に特徴選択と2段の外れ値検出手法を組み合わせた欠陥検出手法を考案し,従来は検出が困難であった微小欠陥に対する検出精度が向上することを実験により確認した.

  2. C1-2 : 生殖医療支援を目的とした精子検出における偽陽性率の調整に関する検討:佐々木 勇人, 中田 雅也, 山本 みずき, 竹島 徹平, 湯村 寧, 濱上 知樹
    Abstract: 本研究では生殖医療支援を目的とした精子選別支援システムの実現を目指しており,精子検出はそのシステムの重要な要素技術の一つである。精子選別支援システムにおいては出来る限り取りこぼしのない選別が要求され,精子検出は偽陽性率の増加を許容してでも高い検出率を達成する必要がある。そこで求められる技術が偽陽性率の調整であり,本研究はBoostingに基づく適応的しきい値調整手法によりこれを実現する。実験では精子検出における偽陽性率および検出率に関して提案手法と一般的なしきい値調整手法との比較を行なう。

  3. C1-3 : 遺伝子ネットワークにおける周期発現パターン遷移列のアイソクロンの計算法とその評価:森 禎弘, 黒江 康明
    Abstract: 細胞には、遺伝子ネットワークによって生み出される周期現象がある。周期現象において、摂動に対する応答を調べるとき、アイソクロンを求めることなどが行われる。しかし、一般にアイソクロンは数値的にしか求められない。著者らは、遺伝子ネットワークとして区分線形微分方程式モデルを用い、その周期現象に対するアイソクロンの計算法を提案している。提案法では、解析的に求めたポアンカレ写像を利用して、モデルの非線形微分方程式を数値的に解くことなくアイソクロンを求めることができる。本稿では、提案法を示し、数値例によりその評価を行う。

  4. C1-4 : SR1公式に基づく準ニュートン法を用いる摂動型カオスの大域的最適化への適用:巽 啓司
    Abstract: 近年,カオス力学系を大域的最適化問題の求解に適用する研究が進められている.本論文では,その中でも,BFGS公式に基づく準ニュートン法を用いる摂動型カオスに着目する.この方法は,準ニュートン法の目的関数に対するスケール不変性を利用して,従来の最急降下法を用いたカオスよりもパラメータ選択が容易であり,求解能力も向上することが報告されている.ここでは,この方法の実用的な面での改良として,適応的にステップサイズを選択する方法や,必要となる計算量が軽減されるSR1公式に基づく準ニュートン法の導入を提案し,数値実験によりその性能を評価する.

    14:45-16:50/A室/OS: 関係性デザインと関係論的システム(1)


  1. A2-1 : 自動車運転時の光の明滅刺激が運転に与える影響—危険性の検証:大塚 拓夢, Tanev Ivan, 下原 勝憲
    Abstract: 本研究では,ドライビングシミュレータを用いて,運転中に,光のちらつきを起こすフリッカーを使い、光を過剰に受動することにより与えられる影響について実験を行う.過去に,光過敏性発作を起こしたパイロットが「吐き気があり,ヘリコプターを制御するのに必要な精巧な運動技能を使用できない」と語った事例について挙げる.上記のような事故がありながらも光刺激に対して人が受ける影響についての研究がほとんど行われていないため,余地があると判断し本研究の動機に至る.ドライビングシミュレータにおける運転シナリオを用い,フリッカーのある状態とない状態における運転で被験者にどのような運転変化が起きるか検証を行い,今後の自動車社会の事故防止に繋げていく.

  2. A2-2 : 運転支援技術の高度化と人の集中力との関係性の検証:Takayuki Hira, Tanev Ivan, Katsunori Shimohara
    Abstract: カナダの交通心理学者Gerald J. S. Wilde氏が提唱したリスクホメオスタシス理論では,システム側で危険を回避する手段・対策をとって安全性を高めても,人は安全になった分だけ大胆な行動をとるため,危険が発生する確率は一定の範囲内に保たれるとされている.その考えに従うならば,近い将来実現される自動運転よりは自動ブレーキやACCといった運転支援技術と人が共働して行う運転のほうがより安全な運転となる可能性も考えられる.そこで,本研究では安全運転制御システムの開発に向けて,運転支援技術の高度化と人の集中力の関係性をドライビングシミュレータと脳波計を用いて明らかにする.

  3. A2-3 : 道路選択のプライシングによる渋滞解消の可能性の検証:宮﨑 貴裕, Ivan Tanev, 下原 勝憲
    Abstract: 近年,自動車利用者数の増加に伴い,渋滞が生活や環境に悪影響を及ぼしていることは言うまでもない.年間損失時間は約53億時間,金額に換算すると約12兆円にも上る.その一方,道路の実延長は,自動車が普及し始めた1965年ごろから比較して2倍以上の122万キロとなっている.この背景の中で,各々で道路選択を行う車両を,新たな方法で適切に分配することで,渋滞を解消する効果が得られるのではないかと考えた.そこで,本研究では,“コスト”という主観的で価値観に左右されるものを道路選択時の情報として与えることで,統計的に車両を再分配することにより渋滞を解消する可能性について検討した.

  4. A2-4 : Simulations for the Effect of Selfishness on Vehicular Traffic:Aldrich Suratos, Ivan Tanev, Katsunori Shimohara
    Abstract: Slow-moving traffic is a major problem in the roads of crowded cities, causing a large amount of wasted time. Often, slow traffic is blamed on drivers that drive aggressively at the expense of other drivers on the road. These “selfish” drivers force the drivers around them to slow down, potentially slowing down traffic further behind them. This research utilizes multi agent simulations to simulate a stretch of three-lane road along which cars travel. “Selfish” and “non-selfish” cars were generated on this road, and the effects of selfishness were observed. Results show that the presence of selfish cars caused an increase in the average time required to traverse the road for all cars, though non-selfish cars were affected more than selfish cars.

    14:45-16:50/B室/深層学習・エージェント


  1. B2-1 : CNNの注目領域を利用した事前知識の組み込みによる正則化:Kazuki Adachi, Masaya Nakata, Tomoki Hamagami
    Abstract: 畳み込みニューラルネットワーク(CNN)は判断の過程がブラックボックスであり,その根拠を解釈することは難しい。この問題に対処するために,CNNモデルの予測に寄与した入力画像中の領域を可視化する手法が考案されている。しかし,これらの可視化手法はモデル自体を改善するものではない。具体的には,十分でないデータセットで学習したモデルの判断根拠を可視化すると,不適切な領域に注目している場合が多く,解釈が難しい。そこで本研究では,不適切な注目領域に対する罰則を設けて学習を行うことで,見るべき領域に関する事前知識を学習時に入れ込む手法を提案した。実験により,データセットが少ない場合においても提案手法で学習したモデルは予測の精度を維持しつつ適切な領域に注目することを示した。

  2. B2-2 : ReLU関数を用いた構造適応型Deep Belief Networkの分類精度向上の検討:鎌田 真, 市村 匠, 丸山 塁
    Abstract: 深層学習アルゴリズムの一つとして,Restricted Boltzmann Machine(RBM)を用いたDeep Belief Network(DBN)がある。我々は,ニューロンを生成/消滅及び層の生成を学習中に自動で行うことで,訓練事例に適したネットワーク構造を発見する構造適応型学習手法を提案した。一般的に,深層学習には勾配消失の問題が知られているが,活性化関数としてReLU関数を用いた手法が提案されている。本研究ではRBMにおいてガウス分布に変換した入力信号をReLU関数に適用する方法で分類精度を調査した。ベンチマークテストとして複数の画像データに適用した結果を報告する。

  3. B2-3 : 学習機能を利用したディプロマ・ポリシーマッチングテストの性能改善:Kazuteru Miyazaki, Nozomi Takahashi, Rie Mori
    Abstract: 現在, 著者らは, 任意のディプロマ・ポリシーからそれに適する付記名称を選択させるマッチングテストを実施している. これまで, 人を対象としたマッチングテストとともに, 機械学習手法を利用したマッチングテストを試み, 一定の成果を得ている. 本稿では, 強化学習手法を利用したディプロマポリシーマッチングテストの性能改善を試みる. 提案手法を6種類の質問紙に適用し, 従来よりも性能が改善されることを示す.

  4. B2-4 : 集合行為におけるエージェントの相互作用と誤りの影響について:Saori Iwanaga
    Abstract: There are many situations where interacting agents can benefit from coordinating their actions, that is, agents gain payoffs by taking the same action as others. These situations can be modeled as coordination games. Another situations is modeled as complementary game, asymmetric coordination games or minority games. In complementary game, agents gain payoffs by taking the different action from others. We deal with coordina-tion game and complementary game as type of interaction. In this study, in each game, we show that small decision error makes collective behavior and preference diverse and rises the average utility. We also show that opposite type of agents play roles of decision error in mixed population of interaction type.

    14:45-16:50/C室/OS: 計算知能の新展開


  1. C2-1 : 重み付き経験分布と適応型差分進化による機会制約問題の解法:田川 聖治
    Abstract: 本稿では,計算統計学の技法である経験分布を拡張した重み付き経験分布と,差分進化を組み合わせた機会制約問題の解法を紹介する.次に,制約条件のない最適化問題に対する適応型差分進化(JADE)を拡張し,制約条件付き最適化問題を対象とした新たな適応型差分進化(ADE2G)を提案する.ADE2Gでは解候補が実行可能か否かで制御パラメータを切り替える.最後に,機会制約問題にADE2Gを適用し,その有効性を実証する.

  2. C2-2 : 意識システムによる強迫性障害の研究:Tianbai Yuan, 武野 純一
    Abstract: 現代ロボット技術の発展は人工知能技術に分離しなければならない。将来にはヒトとロボットの共生する社会が可能であり、人間の行動や意図を理解できるロボットはますます重要になると考えている。そして、現代社会の高ストレスにより、様々な精神疾患になる人は数多く占めている。このため、患者を介護し、治療するサポートロボットは必要であると筆者は考えている。そこで、この研究は人間の強迫性障害の原理や現象などをモデル化し、数理的に実現することを目標としている。そして、強迫性障害の形成した意識システムにおいて通用治療手法が実現できるのかを考察する。この研究は将来の治療・介護ロボットの研究に役立てると考えている。

  3. C2-3 : クラスタリングによる異常検知と差分進化によるパラメータチューニング:太田 将基, 半田 久志, 濵砂 幸裕
    Abstract: 近年, IoTやインターネットの普及に伴い,ビッグデータの取り扱いが容易になっている.このビックデータを解析することによって工業製品や人の行動などにおける異常検知または異常予測することに注目が集まっている.異常検知をシステム化することにより, 24時間常に検知することができる.また,異常予測ができれば,事前に対処することができる.本研究では実データを用いて,クラスタリングによる異常検知技術の有用性を検証する.また,クラスタリングのパラメータを差分進化によりチューニングを行い,異常検知精度の向上という観点で検証する.

  4. C2-4 : ビデオゲームにおけるPredNetを用いた動画予測:三輪 卓伸, 半田 久志
    Abstract: 本研究では,深層学習モデル Deep Predictive Coding Networks (PredNet) を用い行動を考慮した動画予測を提案する.PredNetは動画における次フレームの予測に関して良好な結果を出している.ゲーム画面に対する動画予測では,ゲームプレイヤーの行動によって画面が変わるため通常の動画予測では良い予測が出来ない.提案手法では,入力の画像に関して行動の値を付加させることにより,行動を考慮した動画予測を行う.本研究ではビデオゲームとしてATARI2600を用いる.

  5. C2-5 : 機械学習を用いた知的IoTシステムの可能性:大谷 雅之
    Abstract: モノのインターネット(IoT)に基づいた知能情報システムの目的は,多種多様なセンサデータを分析し,その分析結果を用いて実世界のデバイスを自律的に動作させることである.センサデータ分析については人工知能・進化計算技術を用いた様々な研究が行われているが,分析結果を用いた自動化については方法論が確立しておらず,具体的な現場の問題ごとにIoTシステムを構築・評価するボトムアップ的なアプローチが行われている状況である.本発表では,発表者が行っているIoTシステムへの機械学習応用の事例紹介を通して,これからのIoT研究の方向性を明らかにする.

2018年3月8日(木)


    10:15-11:55/A室/OS: 関係性デザインと関係論的システム(2)


  1. A3-1 : ヒューマンロボットインタラクションにおける複数台ロボットの存在が人の語彙選択に与える影響:齊藤 青葉, 木本 充彦, 塩見 昌裕, 飯尾 尊優, 大谷 槙也, Ivan Tanev, 下原 勝憲, 萩田 紀博
    Abstract: ヒューマンロボットインタラクションにおいて人の言語のあいまいさへの対処は大きな課題である.人の言葉のあいまいさを減らすために,相手の使った言葉を模倣してしまう引き込み現象を利用して,人の言葉をロボットが認識しやすい特定語に誘導することによって認識率を上げるという先行研究があり,一定確率での引き込み現象の発生とそれによる認識率の向上が確認されている.本研究ではロボットの台数を複数台にすることにより,引き込み現象の発生率を上げることができるのかを検証する.人がロボットに物体を指示する場合において,複数ある物体の呼び方を,人がロボットの発話の影響を受けて変えるかどうかを検証する.

  2. A3-2 : ロボットに対するプライミング情報が同調圧力に与える影響:大谷 槙也, 木本 充彦, 塩見 昌裕, 飯尾 尊優, 齊藤 青葉, Ivan Tanev, 下原 勝憲, 萩田 紀博
    Abstract: 社会心理学においてアッシュの同調圧力という有名な知見がある.ある集団内において意思決定を行う際に,少数意見を持っている人に対して暗黙のうちに多数意見に合わせることを強制させる事象のことである.塩見らの研究では複数のロボットにより同調圧力は発生するが,人間の場合と比べて弱いという結果が出ている.本論文では,複数台のロボットによる同調圧力に関し,ロボット操作に対するプライミング情報の有無の影響を実験的に検証する.具体的には,ロボットが自動ではなく人が操作しているという教示を被験者に与え,実験前にロボットを操作してもらい,より人が操作していると思い込みやすくなった状況で同調圧力の実験を行った際の影響を検証する.

  3. A3-3 : 相手モデルに基づくモンテカルロ木探索による対戦相手の力量推定:久保 基, 市川 嘉裕, 山口 智浩
    Abstract: 近年ゲームAI分野では,研究目標が人間より強いゲームAIから人を楽しませるAIへと移っており,その1つとして人間の力量に合わせたゲームAI研究がある.本研究の目的は,人間に合わせた強さでプレイするゲームAIの実現である.その為に,モンテカルロ法で探索する着手候補をレベル別の評価関数で段階的に絞り込む勝率推定手法を提案する.提案手法では,1)単調性を持つレベル別の盤面評価関数で候補手を絞り込んだモンテカルロ法でレベル別の勝率予測を行い,2)相手が選択した着手の推定勝率が最も高いモデルを相手モデルと推定することで,対戦相手の力量推定を実現させることを目指す.

  4. A3-4 : セミラティス構造を利用したカテゴリの作成方法の提案とその有用性の検証:Ian Brison, Koya Kimura, Mitsuhiko Kimoto, Ivan Tanev, Katsunori Shimohara
    Abstract: 記事やコンテンツを分類し,カテゴリにわける“カテゴリ機能”はWebサイトなどの様々なところで用いられている.そのなかで,階層的なカテゴリを形成するとき,カテゴリの構造は木構造であることが多い.子カテゴリが必ず一つの親カテゴリに属する木構造は,構造がわかりやすく,扱いやすいというメリットがあるものの,一面的な捉え方であるために必ずしもカテゴリ利用者に対して最適なカテゴリを提供できないというデメリットもある.一方で,木構造とは違い,子カテゴリが複数の親カテゴリを持ちうるセミラティス構造は,そのデメリットを解決できると考える.本研究ではセミラティス構造を利用したカテゴリの作成方法を提案し,そのカテゴリの有用性について検証する.

    10:15-11:55/B室/運転・安全(2)/ロボティクス


  1. B3-1 : 車車間通信を用いた自律車両制御則の交差点環境下での検証:岩瀬 諒, 小林 祐一, 益子 岳史, 石原 進
    Abstract: 本論文では,車車間通信可能な自律協調型車両の見通しの悪い交差点環境下における交通流改善を目的とし,シミュレータを用いた交通流の検証を行う.見通しの悪い交差点では,センサの視界は交差点の幅によって遮られ,直交車両との衝突回避のための徐行により渋滞が発生する.そこで本手法では車車間通信を使用し,センサによる直交車両の検知だけでなく,車車間通信から得られる直交車両の走行情報も用い,徐行時間を短縮させる車両制御則を提案する.車車間通信有無時の交通流を比較した結果,車車間通信の使用は交通流改善に繋がることが示された.また交通流改善に有効な車車間通信の電波範囲や通信頻度についても議論した.

  2. B3-2 : ドライバ覚醒度低下に伴う体動推定へのSVMの適用:Mingda Yang, Shuyang Liu, 清田 昇吾, 伊藤 誠
    Abstract: 漫然運転は、日本における交通死亡事故の原因の中で高い割合を占めており、それを防ぐためのドライバーモニタリング手法が求められている。筆者らは、少数のセンサーで多様に利用できると考え、自動車の運転席に設置した圧力センサーを用いて、ドライバーの覚醒度低下に伴う体動を推定する手法を開発した。過去の研究では、荷重自身や荷重重心位置の変化などに注目したが、本研究では、サポートベクターマシン(SVM)という高い汎化性能を持つパターン認識手法を利用し、三つのパターンのドライバー体動の認識を試した。その結果、ある程度ドライバーの体動を検出でき、覚醒度低下の兆候をつかむことができることを示した。

  3. B3-3 : 3次元レンジセンサを有する人工生命の捕食被食作用による共進化:Kazuho Takahashi, Takuo Suzuki, Kunikazu Kobayashi
    Abstract: 特定範囲のみを感知するレンジセンサを有する人工生命を進化させることによって,全方位を感知できる人工生命からは創発しない行動の確認を目的とする.また,その先の展望として,ロボティクスへの応用を見据える.本研究では三次元仮想物理環境下に,レンジセンサを有する人工生命を2個体配置し,捕食被食相互作用を進化圧とし進化させる.人工生命は直方体がヒンジ状の関節で接続された形態を持ち,行動はそれぞれが持つニューラルネットワークによって決定される.ニューラルネットワークの入力は,各パーツの接触情報,及びその人工生命のセンサ範囲内の他の人工生命の相対球座標であり,出力は各関節の目標角度である.人工生命の進化には NeuroEvolution of Augmenting Topologies アルゴリズムを用いる.

  4. B3-4 : ロボットハンドによる把持行動の視覚特徴量にもどづいた成功・失敗予測:宗戸 俊樹, 小林 祐一
    Abstract: 近年,人間生活を支援するロボットへの期待が高まっている.しかし,人間生活における動作は多数存在し,失敗も様々なパターン存在する.そのため,失敗を画像から検知して修正・対応する能力が求められる.人間生活における行動として,ロボットハンドによる物体把持行動を例にとり,本論文ではロボットハンドによる把持行動の視覚特徴量にもとづいた成功・失敗の予測方法について提案する.本研究の手法では特徴的な点のみを抽出し,局所的な追跡を行うことで特徴ベクトルを作成する.把持行動動画の各フレームから抽出した視覚特徴量と特徴点の動き情報を用いた把持動作の成功・失敗の予測を行う.

    10:15-11:55/C室/OS:強化学習とその周辺~広がりを見せる強化学習の研究~(1)


  1. C3-1 : 集中型と独立型を併用したマルチエージェント強化学習法 〜独立型学習の停止条件の比較〜:赤羽根 拓真, 飯間 等
    Abstract: マルチエージェント強化学習問題は,エージェントが相互に依存し合うことから問題が複雑になり,集中型強化学習を単体で用いると,解は得られるが学習に時間が掛かる.しかし,エージェント同士は常に依存し合っているわけではなく,依存していない状態であれば,独立した学習で短時間で学習できる.そこで著者らは以前に,集中型と独立型を併用して学習させるとともに,それらの間での情報交換によっても学習をさせる方法を提案した.これにより,集中型と独立型の長所を組み合わせ,問題が複雑であっても短い学習時間で解を得ることができる.ここで,不要になった独立型を停止させることで効率的な学習を行うことができるが,その停止条件についてはいくつかの方法が考えられる.本論文では,3種類の停止条件を用いる提案手法の性能を数値実験を通して比較する.

  2. C3-2 : 探索エージェントを導入した経験共有マルチエージェント強化学習の大規模環境への適用可能性の検討:舘山 武史, 鈴木 星斗
    Abstract: 複数の強化学習エージェントを同時に学習させ,学習経験を共有することにより学習の高速化を実現する,parallel reinforcement learningが注目されている.これらの手法の一つとして,著者らは,「探索に集中するエージェント」と「報酬獲得に集中するエージェント」の2種類のエージェントを設定し,効率的かつ高い確率で最適解の獲得を可能とする手法を提案している.しかし本手法を大規模問題に適用する場合,複数のエージェントの探索行動の重複が生じ,結果としてシステム全体の探索効率悪化の原因となる可能性がある.そこで本研究では,より大規模な環境において効率的な強化学習を可能とすることを目的として,個々のエージェントにそれぞれ異なる「優先的に探索すべき状態」をあらかじめ指定する手法を提案し,探索行動の重複を減少させることを試みる.

  3. C3-3 : 経験強化型学習を利用したdeep Q-networkの学習加速化手法の提案と有効性の検証:Naoki Kodama, Kazuteru Miyazaki, Hiroaki Kobayashi
    Abstract: 近年,深層学習が注目されている.deep Q-network(DQN)は深層学習にQ-learningを組み合わせた手法で,いくつかのAtari2600のゲームにおいて優れた結果を得ている。さらに,試行錯誤回数の削減のために経験強化型手法であるProfit Sharing(PS)をDQNに組み込んだ手法としてDQNwithPSが提案されている.しかし,DQNwithPSによるPS学習が時にニューラルネットワークの更新に悪影響を与える場合がある.そこで本論文では,DQNwithPSのPS学習に用いられる目標値が行動価値関数よりも小さい場合,誤差関数を0とするLearning Acceleration DQN(LADQN)を提案する.提案手法は, Atari2600のゲームの中のBreakout及びEnduroに対してDQNやDQNwithPSよりも,特に優れた結果を与えることを示す.

  4. C3-4 : 深層強化学習の実機ロボットへの応用:車輪型移動ロボットの行動獲得の実現:加藤 大地, 佐々木 光, 堀内 匡, 青代 敏行
    Abstract: Deep Q-network (DQN) is one of the most famous methods of deep reinforcement learning. DQN approximates the action-value function using Convolutional Neural Network (CNN) and updates it using Q-learning. In this research, we apply DQN to behavior learning of a two-wheeled mobile robot. We constructed the simulation environment for a two-wheeled mobile robot using the robot simulation software Webots. Then we designed and manufactured the same size of real robot as simulation robot by ourselves. Through the experiment, we confirmed that the real mobile robot acquired good behavior such as avoiding walls and moving along the way by learning from high-dimensional visual information as input data.

    13:15-14:55/A室/OS: 関係性デザインと関係論的システム(3)


  1. A4-1 : TEDトークの講演内容に着目した定量分析と機械学習の応用:Shohei Maeno, Tetsuya Maeshiro
    Abstract: This research aims at the prediction of whether speeches of TED talk can cause audience standing ovation after the end of the talk. The methods of this present research consist of quantitative analysis according to the speech content and machine learning technique by convolutional neural network. As a result, we achieved 82% accuracy from the prediction focusing on Society topic. It can be thought that our own methods used in this research are useful and applicable for prediction with respect to standing ovation, although the result requires us to improve more.

  2. A4-2 : 聴覚刺激の反応と歌唱時の音程の分析:Sara Kobayashi, Tetsuya Maeshiro
    Abstract: The purpose of this research is to elucidate the relevance of tone deafness and how to hold reac- tions and impressions to the sound when a person listens to the sound. In order to verify the relationship be- tween response to auditory stimulus and tone deeper, a subject experiment was conducted. As a result, it was found that there are some differences in how to listen to sounds between people who are tone deaf and those who are not.

  3. A4-3 : LINEスタンプの視覚的特徴と感情表現との関係:Hidetsugu Suto, Kurumi Yamamura
    Abstract: 非言語コミュニケーションの一つとして,スタンプを用いた感情表現が挙げられる.顔文字やアスキーアート,簡単な絵文字が表す感情に関しては盛んに研究が行われているが,LINEなどのインスタントメッセンジャーで用いられるスタンプの視覚的特徴と感情の関係を明確に示す研究はあまり行われていない.そいこで本研究では,スタンプと人間が表す感情との関係性を分析しモデル化することで,任意の感情を表す際に必要な視覚的特徴を明確にすることを目指す.

  4. A4-4 : 室内における複数人の二酸化炭素濃度の分析と音楽を用いた知的環境制御:守谷 元一, 渡邊 紀文, 今仁 順也, 宮本 賢良, 糸田 孝太, 青山 浩之, 武藤 佳恭
    Abstract: 近年の研究において二酸化炭素濃度が高い環境では人の知的活動が妨げられることが報告されている.そこで我々は,二酸化炭素濃度計測デバイスを利用した多点センシングを用いて人の呼気に含まれる二酸化炭素の室内における拡散傾向を明らかにしてきた.しかし,これまでの実験では被験者を1箇所に集めていたため,二酸化炭素の発生源が複数箇所に存在している状態での計測は行ってこなかった.そこで,本研究では人の位置による二酸化炭素の拡散傾向及び室内の高低差による濃度の変化を分析した.また複数箇所の人の呼気による二酸化炭素の排出を制御し,室内の知的環境制御を実現するために,音楽による呼吸誘導を用いた濃度の変化を分析した.

    13:15-14:55/B室/進化計算/最適化(2)


  1. B4-1 : 巡回セールスマン問題のための希少形質に着目した遺伝的アルゴリズム:森下 真孝, 小野 功
    Abstract: 本論文では,巡回セールスマン問題(TSP)のための希少形質に着目した遺伝的アルゴリズム(GA)を提案する.並列GA-EAXは,TSPの最も強力なGAのひとつとして知られており,10万都市規模の問題において良好な性能を示している,しかし,数千から数万都市規模のインスタンスでも,最適解または既知最良解の発見率が低いインスタンスが存在するという問題点がある.そこで,本論文では,既存の並列GA-EAXの問題点に対処した新たな手法を提案する.数値実験により,既存の並列GA-EAXによる最適解(既知最良解)の発見率が低いインスタンスにおいて,提案手法がより高い確率で最適解(既知最良解)を発見できることを確認する.

  2. B4-2 : 多目的ブラックボックス関数最適化のための被覆度に優れたマルチスタートスカラー化最適化手法の提案:戸田 貴都, 小野 功
    Abstract: 本論文では,多目的ブラックボックス関数最適化のための被覆度に優れたマルチスタートスカラー化最適化手法を提案する.多目的ブラックボックス関数最適化とは,代数的表現が陽に与えられない複数の目的関数を同時に最小化するような解集合を求める問題である.マルチスタートスカラー化最適化手法に属する強力な手法として,AWA-ERがあり,この手法は良好な被覆度を有する近似解集合を求められることが知られている.しかし,AWA-ERは強い非線形性を持つ関数に適用すると,近似解集合の被覆度が劣化するという問題がある.本論文では,この問題点を克服した新たな手法を提案し,上述の要素を持つベンチマーク関数への適用を通じて提案手法が前述の問題に対して有効であることを示す.

  3. B4-3 : 自然進化戦略に基づく大域的多峰性ブラックボックス関数最適化手法の提案:小林 賢斉, 孫 永昇, 小野 功
    Abstract: 本論文では,自然進化戦略に基づく大域的多峰性ブラックボックス関数最適化手法を提案する.ブラックボックス関数最適化は,関数形が明示的に与えられない問題であり,実問題にしばしば現れる困難な問題である.自然進化戦略iADX-NESは,最も有力なブラックボックス関数最適化手法の1つである.しかし,複数の大谷からなる大域的多峰性関数において探索性能が劣化する様子が観察される.本論文では,iADX-NESの問題点に対処した手法を提案し,数値実験により有効性を確認する.

  4. B4-4 : 切替え確率アファインシステムの安定性解析:日原 章斗, Guisheng Zhai
    Abstract: 本稿において, 線形項, アファイン項と確率項により構成された切替え確率アファインシステムの安定性について考える. サブシステムの確率項は一定で, 線形項とアファイン項は独立に切替えが発生し, 確率的大域漸近安定なサブシステムは存在しないものと仮定する. また, サブシステムにおける線形項のある凸結合と確率項からなる線形確率システムが確率的大域漸近安定で, サブシステムにおけるアファイン項の凸結合が原点を含む場合を考える. このとき, 切替え確率アファインシステムが原点において確率的大域漸近安定となる状態依存切替え法則を提案する. そして, シミュレーションにより提案手法の有効性を確認する.

    13:15-14:55/C室/OS:強化学習とその周辺~広がりを見せる強化学習の研究~(2)


  1. C4-1 : 環境変化型経路選択における強化学習のためのサンプリング法:大滝 啓介, 西 智樹, 吉村 貴克
    Abstract: 強化学習は固定された環境において,期待する性能を示す政策を学習するための手法である.そのため環境が変化した場合には,転移学習等を利用した政策の再学習が必要となる.転移学習の代表的な手法は,学習済みのパラメータを初期値として再学習を行う.我々はそれに加えて,環境の前後で再学習が必要となる状態を絞り込み,効率的に再学習する手法を提案する.本稿では経路選択問題を題材に,利用可能な経路が変化する環境において,目的地までの距離の変化に基づいて状態を絞り込む手法を提案し,格子世界を用いて手法を評価する.結果として,環境変化の情報を利用することで,初期段階の学習において学習が効率的に進むことを確認した.

  2. C4-2 : 負の報酬生成による環境変化に適応可能な逆強化学習:Satoshi Hasegawa, Yuta Umenai, Fumito Uwano, Hiroyuki Sato, Tomohiro Yamaguchi, Keiki Takadama
    Abstract: 本研究では,逆強化学習がエキスパートの行動に依存するため環境変化に適応できないという問題に対して,変化した環境に適応可能な逆強化学習を提案する.提案手法は環境が変化し悪い状態ができた時に,エキスパートの行動と観測した悪い状態に対して生成した負の報酬を用いて逆強化学習をすることで,悪い状態を避けて目標状態に到達する行動指針を獲得する.迷路問題を例題として環境変化後にエキスパートの行動系列上に悪い状態がある場合,それ以外にある場合,両方にある場合について提案手法の有効性を検証した.実験結果としてどの場合でもエージェントが悪い状態を避けて目標状態に到達する行動指針を獲得できた.

  3. C4-3 : 報酬生起確率ベクトルに基づくあらゆる状況に対する強化学習:長濵 将太, 市川 嘉裕, 高玉 圭樹, 山口 智浩
    Abstract: 本研究は,各報酬の重みが自明でない多目的な強化学習問題に対して,あらゆる状況に対応するために報酬生起確率ベクトルに基づき,重み区間別の最適方策全てを求める強化学習手法を提案する.先行研究は,重み区間別の最適方策を求める凸包を,Q値更新ごとに方策候補を逐次追加し反復計算するため,計算コストが大きい.これに対し我々は,各報酬の単位ステップ当たりの生起確率を要素とする報酬生起確率ベクトルと各報酬の重みベクトルとの内積で方策の平均報酬を定義する.提案手法はモデル同定後に報酬を獲得する決定的方策全てを探索する.その特徴は,報酬生起確率ベクトル空間で求めた方策集合の凸包計算が1回で行え,かつ,凸包の頂点が重み区間別の最適方策となることである.

  4. C4-4 : 行動出力にむだ時間要素や一次遅れ要素を持つ環境のための強化学習に関する実験的検討:渋沢 慎吾, 澁谷 長史
    Abstract: 強化学習によりロボットの制御則を自動的に獲得させることで設計者の負担を軽減することが可能である。強化学習の行動はロボットの場合アクチュエータへの指令に対応付けられる。しかし,多くのアクチュエータは,指令信号と出力の間に一次遅れやむだ時間を持ち,エージェントが決定・出力した行動がそのままはロボットに伝わらない。このため,強化学習による制御性能の低下が発生する。本稿では,このような制御性能の低下を回避するために,Schuitema らの手法に発想を得て補償器を用いる手法を提案し,この手法の性能を2リンクマニピュレータのシミュレーション実験により実験的に評価する。

    15:10-16:50/A室/OS: 関係性デザインと関係論的システム(4)


  1. A5-1 : 観光目的や個別の条件に適した旅行先での行動計画支援システムの提案:荒井 ほのか, Ivan Tanev, 下原 勝憲
    Abstract: 現地で観光情報を得る手段としてインターネットやパンフレットなどが利用される.しかし,個々人の条件に応じて観光したい場所やそこへの行き方を決めるには,ネット上の膨大な情報から選択するのは時間がかかり,かつ必要な情報があるとは限らいない.そこで,本研究では,ユーザの観光目的や条件に応じて行先等の観光情報とそこへのルート情報を適応的に調整することで,ユーザにとって満足度の高い行動計画を提供する仕組みを提案する.従来のルート案内システムに加えて旅行者の年齢や同行者の情報を利用することで,現地での旅行計画の際にユーザにとってより有益な観光情報の提供が可能となる.

  2. A5-2 : サイレントマジョリティな情報が人の行動に与える影響:Tatsuki Tsujikawa, Koya Kimura, Ivan Tanev, Katsunori Shimohara
    Abstract: 地方には魅力的なモノ・コトがあるのにもかかわらず,財政難や人口移動など様々な問題を抱えている.そのような地方創生に向けた解決策の一つとして地域資源の情報発信が挙げられる.例えば,サイトや雑誌,口コミなど個人ベースの情報発信は,影響力のある情報発信の方法として認識されつつある.しかしながら,それらのほとんどは意図的な情報発信であり,情報発信した個々人の意図に偏った情報であることは否めない.そこで本研究では,意図的な発言はしない(ものを言わない)多数派勢力であるサイレントマジョリティの情報に着目し,サイレントマジョリティの情報提供が人の行動に与える影響について実験し,分析した.

  3. A5-3 : 帰宅困難者の滞留解消に向けた区間混雑に基づく路線間バス譲渡:高谷 美穂, 石井 晴之, 張 財立, 辰巳 嵩豊, 佐藤 寛之, 高玉 圭樹
    Abstract: 災害時における帰宅困難者の滞留問題を解消するために路線バスに着目し,平時の路線網に変化を加えず,路線間のバス譲渡のみで帰宅困難者の滞留を緩和し,早期帰宅させる手法を提案する.提案手法の有効性を検証するために,都市交通ベンチマーク問題を用いて実験した結果,平時や従来手法に比べて大規模災害に対する耐性が高いという結果が得られた.また,需要を時間変化させた場合は,その需要変化が一定である場合は,一度だけのバス譲渡で滞留緩和に効果的なバス配分が出来るという結果が得られた.以上の知見により,本研究は路線網の変化をせず,バスの譲渡のみで,災害時における帰宅困難者の滞留解消に対する有効性を示した.

  4. A5-4 : リアルデータ駆動型イノベーション基盤でのデータアポトーシスの挙動:鈴木 羽留香
    Abstract:

    15:10-16:50/B室/リトミック・インタラクション


  1. B5-1 : リトミックにおいて園児が興味を持つ活動の推定:吉﨑 美紗, 市川 淳, 早川 博章, 岡 夏樹, 大森 隆司, 長井 隆行
    Abstract: 保育の現場では一人一人に合わせて指導することが重要とされている為、普段から子ども達を観察しそれぞれの遊びの傾向や性格を掴む必要がある。そこで、遊んでいる子ども達を観察し保育士と同じ目線の情報を提供出来るシステムがあれば指導者の負担を軽減できるのではないかと考えた。本研究では子どもの好みを見つける上で保育士が子ども達のどういった部分を見ているか、どの部分を重要視しているかをリトミック中に得られたデータと参加した保育士からの聞き取りを基に解析を行った。この得られたデータを基により保育士の感覚に近いシステム作成を目指す。

  2. B5-2 : 人とロボットの間のリズムインタラクションにおける主導交代モデルの構築:Toshimasa Takai, Ami Tsukamoto, Atsushi Hirota, Koki Teraoka, Ryo Iehara, Soichiro Obara, Jun Ichikawa, Kazuaki Tanaka, Natsuki Oka
    Abstract: リズムインタラクションは人間関係の構築を助けることが知られており、人とロボットの関係構築においても有効と考える。また、インタラクションは主導側と受動側の交代が実現することでより創造的な発展をすることが期待できる。本研究の目的は、ロボットの導入により、より創造的な身体表現活動の場を提供することである。そこで、人とロボットの間のリズムインタラクションにおいて、主導交代をおこなうモデルの構築をおこなった。具体的な設計は、掃除ロボットRoombaに複数のインタラクションモードをリカレントネットワークにより学習させ、好奇心を導入することでロボットに自律性を持たせた。

  3. B5-3 : プロジェクタ型翻訳機を用いた窓口での書類記入支援の円滑化:古橋 翔吾, 稲葉 隼人, 近藤 弘規, 森 秀晃, 末次 雄介, 冨増 紗也華, 和田 夏未, 吉﨑 美紗, Marine Zorea, 櫛 勝彦, 岡 夏樹, 牛尾 貴志, 藤原 菜々美, 飯田 恵大, 山内 真樹
    Abstract: 近年多くの外国人が日本に来訪するようになり、買い物や観光地だけでなく、交番や郵便局といった書類を扱う手続きを要する場も、外国人により多く利用されるようになるに伴い、書類手続きに適した翻訳機の需要が出てきている。本研究では、書類手続きにおける翻訳インタラクションに着目し、音声翻訳と卓上書類へのプロジェクションによる情報提供を組み合わせた翻訳機を開発した。そして、実際に書類手続きが行われている場で、この翻訳機によるインタラクションのユーザビリティ評価を行い、新たな課題やインタラクションの分析を行った。

  4. B5-4 : 二層化ゲーミフィケーションに基づく議論活性化システム:渡辺 真広, 花木 真美, 鈴木 麗璽, 有田 隆也
    Abstract: 我々は互恵性に基づいて協力行動を促進する2層化ゲーミフィケーションDERCを提案中である.DERCは人間行動に対して直接的に作用するレベル1と,レベル1への作用を通して間接的に作用するレベル2で構成される.レベル1は間接互恵におけるイメージスコアをポイントにより明示化共有化するものであり,レベル2はそのポイントを賭けにより操作するものである.本論文では,簡便な入出力装置を用いてレベル1をリアルタイムに作動させることにより議論の活性化を狙うDERCシステムを提案する.初期的評価実験を行った結果,レベル1が自らの発言を促進し,レベル2が他者の発言を促すような発言を促進することが示された.

    15:10-16:50/C室/OS:強化学習とその周辺~広がりを見せる強化学習の研究~(3)


  1. C5-1 : 強化学習型BCIシステムの実現へ向けたMMNの報酬利用の検討:佐々木 航, 渡邊 駿
    Abstract: 近年,意思によるロボット操作や想像した画像の表示などが実現可能な技術としてブレイン・コンピュータ・インターフェース(BCI)の研究が数多く行われている。しかし,多くのBCIは事前にユーザの脳波を計測し,機能に合わせてBCIの識別器を最適化しておく必要があり,性能の向上やユーザと機能の追加には脳波の追加計測と識別器の再最適化が必要となる場合があった。本研究ではBCIの使用を通して自動的に最適化される強化学習型BCIシステムの開発を目標として,ユーザが想像と異なる画像を見たときに発生する脳波のミスマッチ陰性電位(MMN)を強化学習の報酬として利用したBCIシステムの検討を行う。

  2. C5-2 : RNN型日本語対話モデルの推測精度の検証:森 のどか, 鈴木 拓央, 小林 邦和
    Abstract: 近年、GoogleアシスタントやSiriなどの対話システムの技術が発展している。しかし、現在のシステムでは相手に合わせた返答をすることは難しい。先行研究では、Sequence to Sequenceモデルで英語の対話を学習できることが確認されている。そのため、本研究では同モデルを用いて相手に合わせた返答ができる日本語対話モデルの構築を目指す。まずコーパスを用いて学習したモデルに、コーパスに含まれる発話文を入力した際、対応する応答文が正しく出力されることを確認した。これは、日本語でも英語と同様に対話を学習できることを意味する。次にコーパスの解析方法や学習パラメータの変更、Beam-searchやAttentionを付加したりすることで、精度の向上を図った。

  3. C5-3 : リカレントニューラルネットワークを用いた株価予測における複数銘柄の利用:森 寛起, 原田 拓
    Abstract: 時系列的に変動する株価を予測するために,予測する銘柄だけではなく,他の銘柄の株価も利用する方法を提案する.本研究では,時系列データとしての株価の類似性をDynamic Time Warpingを用いて評価し,この評価指標に基づいて,予測のために利用する銘柄を選択する.そして,これら複数銘柄の株価を入力データとしてリカレントニューラルネットワークを適用することによって株価予測を行う.さらに,評価実験を行うことによって,提案方法の有効性を評価する.

  4. C5-4 : 政策の探索と活用を考慮した多峰性景観環境のための直接政策探索法:山田 大輝, 小野 功
    Abstract: 本論文では,複数の局所最適政策を有する多峰性景観環境のための直接政策探索法を提案する.直接政策探索法は,数理モデルで表現された政策を直接更新する強化学習の枠組みである.徳久らの手法は,多峰性景観環境を考慮した有力な直接政策探索法の1つである.複数の政策の並列学習,分離度による多様な政策の学習,UCBに基づく挙動政策の選択,経験共有の工夫により,大域的最適政策の獲得を試みる.しかし,複数の政策の探索と活用が不適切な問題,多様性指標が不適切な問題,複数の政策が同じ局所最適政策に収束しやすい問題,学習が停滞する問題を抱える.本論文では,徳久らの手法の問題点に対処した直接政策探索法を提案し,その有効性を確認する.