<html><head><meta http-equiv="Content-Type" content="text/html; charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div><blockquote type="cite" class=""><div class=""><div dir="ltr" class=""><div class=""><span style="font-family: sans-serif;" class=""><span class="gmail-final-path" style="box-sizing:border-box;color:rgb(36,41,46);font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,Arial,sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol";font-style:normal;font-variant-ligatures:normal;font-variant-caps:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial">I have recently studied about Bayesion theory,parametric and multivariate methods and dimensionality reduction by PCA and LDA in course Pattern Recognition and ML which I think will be quite helpful.</span></span></div><div class=""><span style="font-family: sans-serif;" class=""><span class="gmail-final-path" style="box-sizing:border-box;color:rgb(36,41,46);font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Helvetica,Arial,sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol";font-style:normal;font-variant-ligatures:normal;font-variant-caps:normal;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial">Further, I would like to know how to get started with proposal and if I should fix some bugs or I should contact mentor directly any other specific thing </span></span></div></div></div></blockquote><br class=""></div><div><div class="">There's more information on submitting a proposal here:</div><div class=""><a href="http://wiki.openchemistry.org/Applying_to_GSoC" class="">http://wiki.openchemistry.org/Applying_to_GSoC</a></div><div class=""><br class=""></div><div class="">I'll give you a summary, but part of your job in the application is to consider how the project would work. The summary is highly generic, since several students have inquired, so apologies if some of this includes things you know.</div><div class=""><br class=""></div><div class="">Finding a distribution of molecular conformer geometries relies on sampling from multiple, possibly correlated degrees of freedom, typically different dihedral angles. We often have initial prior beliefs about the dihedral angles (e.g., from likely angles in crystal structures or other calculations) but in particular molecules, those beliefs may be far from the optimal. Consider, for example, biphenyl, where optimal dihedrals for sp2-hybridized C-C bonds are typically flat, but the molecule has an optimal angle of +/- 45 degrees.</div><div class=""><br class=""></div><div class="">Bayesian optimization is a technique for efficiently sampling expensive unknown black-box functions and only optionally requires derivatives. It works well on problems with intermediate degrees of freedom (e.g., less than ~30) by using different acquisition functions to balance exploration of under-sampled space and exploitation of existing knowledge.</div><div class=""><br class=""></div><div class="">The project would require coding a Bayesian optimization strategy for sampling molecular conformations, using force fields or other free energy calculations. A key test would be to show performant speed and accuracy (e.g., finding 'good conformers'). Part of the project would likely include encoding prior distributions, testing different acquisition strategies, etc. Another key component would be evaluating different types of GP kernel.</div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">If you write up a draft as indicated in the wiki, I'd be happy to take a look. As a warning, there are a *ton* of Bayesian / Gaussian process packages out there. I have not studied all of them, but a few that look interesting:</div><div class="">- GPFlow / GPFlowOpt (<a href="https://gpflowopt.readthedocs.io/en/latest/" class="">https://gpflowopt.readthedocs.io/en/latest/</a>)</div><div class="">- Phoenics (<a href="https://github.com/aspuru-guzik-group/phoenics" class="">https://github.com/aspuru-guzik-group/phoenics</a>)</div><div class="">- GPyOpt (<a href="https://github.com/SheffieldML/GPyOpt" class="">https://github.com/SheffieldML/GPyOpt</a>)</div><div class="">- COMBO (<a href="https://github.com/tsudalab/combo" class="">https://github.com/tsudalab/combo</a>)</div><div class="">- pyGPGO (<a href="http://pygpgo.readthedocs.io/en/latest/" class="">http://pygpgo.readthedocs.io/en/latest/</a>)</div><div class=""><br class=""></div><div class="">There are undoubtedly more, and an evaluation of packages would be an important part of the proposal/project.</div><div class=""><br class=""></div><div class="">Hope that helps,</div><div class="">-Geoff</div><div class=""><br class=""></div></div><div class="">---</div><div class="">Prof. Geoffrey Hutchison</div><div class="">Department of Chemistry</div><div class="">University of Pittsburgh</div><div class="">tel: (412) 648-0492</div><div class=""><a href="mailto:geoffh@pitt.edu" class="">email: geoffh@pitt.edu</a></div><div class="">twitter: @ghutchis</div><div class="">web: <a href="https://hutchison.chem.pitt.edu/" class="">https://hutchison.chem.pitt.edu/</a></div></body></html>